硬件与空间: 确保计算机上有 15GB 的可用磁盘空间。 本教程中的工具在大多数支持的硬件上运行良好,但更高性 […]
Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。 它把 […]
Physical Intelligence 公司推出了 π0(pi-zero),这是一个通用的机器人策略模型, […]
Meta FAIR(基础人工智能研究团队)公开发布了多项新研究成果,旨在推动机器人技术的发展,以实现高级机器智 […]
Claude 3.5 Sonnet发布PDF图像预览新功能,允许用户分析长度不超过100页的PDF中的视觉内容 […]
In-Context LoRA是一种新方法,用于对文本到图像的生成模型(如扩散变换器,DiTs)进行微调,使其 […]
三个月前,「LiblibAI 哩布哩布 AI」,一个 AI 模型社区型产品,在一年内完成了三轮共计数亿元的融资 […]
ElevenLabs 发布了一个开源的小项目,X-to-Voice ,允许用户通过分析 Twitter 资料生 […]
OpenAI 高层 Reddit AMA 完整翻译 GPT-5 及即将推出的模型 GPT-5:今年没有发布 G […]
Google 宣布在其 Gemini API 和 Google AI Studio 中推出新功能“Google […]
Wonder Dynamics 推出了一项开创性的新技术——Wonder Animation,可以将传统视频片 […]
AI视频平台D-ID推出了两款新型数字人工具—Express和Premium+,专为内容创作设计,旨在让企业在 […]
01前言 近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。该模型 […]
字节跳动最近推出了一款名为PersonaTalk的AI模型,这项黑科技让视频配音彻底摆脱了传统的“僵硬感”。只 […]
一夜之间,名为“red_panda”(小熊猫)的神秘文生图模型狠狠火了!! 登顶文生图竞技场,直接将Flux、 […]
把微信公众号优质内容变成自己的专属知识库,只差这一个AI助手! 鹅厂悄悄上线的ima copilot,可以说把 […]
DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 […]
在前面文章《应用编排的未来是Pipeline,LlamaIndex开发预览版推出Query Pipeline, […]
31岁那年,东北人赫畅创办了餐饮品牌“黄太吉”,卖北方最常见的杂粮煎饼。当时,中国智能手机用户突破2亿,手机上 […]
大家好,这是《Kimi使用,从入门到精通》系列文章的第二篇。在上一篇中,我们带大家系统认识了AI。了解到,目前 […]
在SD中有很多人物换脸的新技术,比如像之前的Roop还有ReActor,它们都可以实现仅凭一张图进行人物换脸, […]
Ultralight-Digital-Human 是一个创新的开源项目,使得数字人在移动设备上的实时应用成为可 […]
NotebookLlama 是一套用于从 PDF 文件生成播客的引导式教程,结合了文本到语音(TTS)模型的应 […]
MaskGCT(Masked Generative Codec Transformer)是一种零样本文本到语音 […]
PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架,也就是专门用来给视频人 […]
摘要 大型语言模型(LLMs)已经彻底改变了人工智能领域,使得以前被认为是人类专属的自然语言处理任务成为实现可 […]
本文给大家分享一个新的ControlNet类型:Instant ID,翻译为身份标识,核心能力是由国内的小红书 […]
长期记忆(LTM)是AI自进化的核心,它允许模型通过与环境的持续交互,累积并存储经验数据。这些数据可以在未来的 […]
Google DeepMind 发布了一项新的生成式 AI 技术,这项技术被应用在了 MusicFX DJ 和 […]
Cloudflare推出了一个新的开发工具:Workflows。的持久执行引擎,目前已进入公开测试阶段。这项工 […]
硬件与空间: 确保计算机上有 15GB 的可用磁盘空间。 本教程中的工具在大多数支持的硬件上运行良好,但更高性 […]