首页 > Ai资讯
教程:使用 E2F5工具实现文本转语音和唇同步视频制作
教程:使用 E2F5工具实现文本转语音和唇同步视频制作

硬件与空间: 确保计算机上有 15GB 的可用磁盘空间。 本教程中的工具在大多数支持的硬件上运行良好,但更高性 […]

苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手
苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。 它把 […]

π0:通用机器人策略模型 让机器人具备在人类环境中自主执行多种复杂任务的能力
π0:通用机器人策略模型 让机器人具备在人类环境中自主执行多种复杂任务的能力

Physical Intelligence 公司推出了 π0(pi-zero),这是一个通用的机器人策略模型, […]

Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知
Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知

Meta FAIR(基础人工智能研究团队)公开发布了多项新研究成果,旨在推动机器人技术的发展,以实现高级机器智 […]

Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析
Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析

Claude 3.5 Sonnet发布PDF图像预览新功能,允许用户分析长度不超过100页的PDF中的视觉内容 […]

In-Context LoRA:给图像生成模型增加“情节记忆力”和“角色一致性”的能力
In-Context LoRA:给图像生成模型增加“情节记忆力”和“角色一致性”的能力

In-Context LoRA是一种新方法,用于对文本到图像的生成模型(如扩散变换器,DiTs)进行微调,使其 […]

字节,悄咪咪做了个 Liblib
字节,悄咪咪做了个 Liblib

三个月前,「LiblibAI 哩布哩布 AI」,一个 AI 模型社区型产品,在一年内完成了三轮共计数亿元的融资 […]

X-to-Voice:输入你的 Twitter 账号名称 自动生成能说话的个人资料头像
X-to-Voice:输入你的 Twitter 账号名称 自动生成能说话的个人资料头像

ElevenLabs 发布了一个开源的小项目,X-to-Voice ,允许用户通过分析 Twitter 资料生 […]

OpenAI 高层 Reddit AMA 完整版
OpenAI 高层 Reddit AMA 完整版

OpenAI 高层 Reddit AMA 完整翻译 GPT-5 及即将推出的模型 GPT-5:今年没有发布 G […]

Google Gemini API 新增“搜索锚定”功能 利用 Google 搜索实时数据确保准确性
Google Gemini API 新增“搜索锚定”功能 利用 Google 搜索实时数据确保准确性

Google 宣布在其 Gemini API 和 Google AI Studio 中推出新功能“Google […]

Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation
Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation

Wonder Dynamics 推出了一项开创性的新技术——Wonder Animation,可以将传统视频片 […]

D-ID推出了两款新数字人工具 只需一分钟视频训练即可生成 支持复杂表现
D-ID推出了两款新数字人工具 只需一分钟视频训练即可生成 支持复杂表现

AI视频平台D-ID推出了两款新型数字人工具—Express和Premium+,专为内容创作设计,旨在让企业在 […]

MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型

01前言 近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。该模型 […]

比真人还像真人!字节跳动PersonaTalk的黑科技有多强大?
比真人还像真人!字节跳动PersonaTalk的黑科技有多强大?

字节跳动最近推出了一款名为PersonaTalk的AI模型,这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。只 […]

神秘模型“小熊猫”一夜刷屏:排名超Flux、Midjourney,网友:一看就中国的
神秘模型“小熊猫”一夜刷屏:排名超Flux、Midjourney,网友:一看就中国的

一夜之间,名为“red_panda”(小熊猫)的神秘文生图模型狠狠火了!! 登顶文生图竞技场,直接将Flux、 […]

鹅厂版AI笔记悄悄上线,微信公众号优质内容秒变专属知识库,实测在此
鹅厂版AI笔记悄悄上线,微信公众号优质内容秒变专属知识库,实测在此

把微信公众号优质内容变成自己的专属知识库,只差这一个AI助手! 鹅厂悄悄上线的ima copilot,可以说把 […]

Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话
Google DeepMind 公布其NotebookLM背后的创新音频生成技术 使 AI 能够生成更加自然的对话

DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 […]

LlamaIndex的QueryPipeline在实现RAG应用后,Agent应用也可以实现了(附开发示例)
LlamaIndex的QueryPipeline在实现RAG应用后,Agent应用也可以实现了(附开发示例)

在前面文章《应用编排的未来是Pipeline,LlamaIndex开发预览版推出Query Pipeline, […]

独家!黄太吉创始人再创业:首次披露惨败内幕
独家!黄太吉创始人再创业:首次披露惨败内幕

31岁那年,东北人赫畅创办了餐饮品牌“黄太吉”,卖北方最常见的杂粮煎饼。当时,中国智能手机用户突破2亿,手机上 […]

了解Kimi必看的26个问题 | Kimi系列文(二)
了解Kimi必看的26个问题 | Kimi系列文(二)

大家好,这是《Kimi使用,从入门到精通》系列文章的第二篇。在上一篇中,我们带大家系统认识了AI。了解到,目前 […]

技术爆炸!AI一图换脸新王者,Instant ID保姆级安装与使用测评
技术爆炸!AI一图换脸新王者,Instant ID保姆级安装与使用测评

在SD中有很多人物换脸的新技术,比如像之前的Roop还有ReActor,它们都可以实现仅凭一张图进行人物换脸, […]

Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型
Ultralight-Digital-Human :支持在移动设备上实时运行的超轻量级数字人模型

Ultralight-Digital-Human 是一个创新的开源项目,使得数字人在移动设备上的实时应用成为可 […]

NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程
NotebookLlama:Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

NotebookLlama 是一套用于从 PDF 文件生成播客的引导式教程,结合了文本到语音(TTS)模型的应 […]

MaskGCT:零样本文本到语音(TTS)模型 支持跨语言配音、语音转换、情感控制等
MaskGCT:零样本文本到语音(TTS)模型 支持跨语言配音、语音转换、情感控制等

MaskGCT(Masked Generative Codec Transformer)是一种零样本文本到语音 […]

PersonaTalk:字节跳动开发出可精准给视频进行AI配音的模型 能保持口型同步、说话风格完美匹配
PersonaTalk:字节跳动开发出可精准给视频进行AI配音的模型 能保持口型同步、说话风格完美匹配

PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架,也就是专门用来给视频人 […]

必看!阿里通义千问完整技术报告
必看!阿里通义千问完整技术报告

摘要 大型语言模型(LLMs)已经彻底改变了人工智能领域,使得以前被认为是人类专属的自然语言处理任务成为实现可 […]

Stable Diffusion基础:ControlNet之身份标识
Stable Diffusion基础:ControlNet之身份标识

本文给大家分享一个新的ControlNet类型:Instant ID,翻译为身份标识,核心能力是由国内的小红书 […]

Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力
Omne:通过多智能体合作 解决AI长期记忆能力并提高AI推理能力

长期记忆(LTM)是AI自进化的核心,它允许模型通过与环境的持续交互,累积并存储经验数据。这些数据可以在未来的 […]

Google 更新 MusicFX DJ 可以像DJ一样灵活控制音乐生成和编辑
Google 更新 MusicFX DJ 可以像DJ一样灵活控制音乐生成和编辑

Google DeepMind 发布了一项新的生成式 AI 技术,这项技术被应用在了 MusicFX DJ 和 […]

Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建
Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建

Cloudflare推出了一个新的开发工具:Workflows。的持久执行引擎,目前已进入公开测试阶段。这项工 […]


1 2 3 4 5 129