Claude 3.5 Sonnet发布PDF图像预览新功能,允许用户分析长度不超过100页的PDF中的视觉内容 […]
In-Context LoRA是一种新方法,用于对文本到图像的生成模型(如扩散变换器,DiTs)进行微调,使其 […]
ElevenLabs 发布了一个开源的小项目,X-to-Voice ,允许用户通过分析 Twitter 资料生 […]
OpenAI 高层 Reddit AMA 完整翻译 GPT-5 及即将推出的模型 GPT-5:今年没有发布 G […]
Google 宣布在其 Gemini API 和 Google AI Studio 中推出新功能“Google […]
Wonder Dynamics 推出了一项开创性的新技术——Wonder Animation,可以将传统视频片 […]
AI视频平台D-ID推出了两款新型数字人工具—Express和Premium+,专为内容创作设计,旨在让企业在 […]
DeepMind 公布其正在开发一套创新的音频生成技术细节,也就是NotebookLM背后使用的语音技术。使 […]
Ultralight-Digital-Human 是一个创新的开源项目,使得数字人在移动设备上的实时应用成为可 […]
NotebookLlama 是一套用于从 PDF 文件生成播客的引导式教程,结合了文本到语音(TTS)模型的应 […]
MaskGCT(Masked Generative Codec Transformer)是一种零样本文本到语音 […]
PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架,也就是专门用来给视频人 […]
长期记忆(LTM)是AI自进化的核心,它允许模型通过与环境的持续交互,累积并存储经验数据。这些数据可以在未来的 […]
Google DeepMind 发布了一项新的生成式 AI 技术,这项技术被应用在了 MusicFX DJ 和 […]
Cloudflare推出了一个新的开发工具:Workflows。的持久执行引擎,目前已进入公开测试阶段。这项工 […]
前天,Claude 才发布 Computer Use,让AI可以像人一样操控你的电脑来干活,已经很炸裂了。 这 […]
Midjourney 大更新 新增功能:外部图像编辑器、图像重纹理 图像编辑器:允许用户上传图像并进行扩展 […]
Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Hai […]
Runway 推出的一款生成式角色表演工具,Act-One可以通过使用视频和语音输入生成逼真的角色表演,是一种 […]
Ideogram发布 Ideogram Canvas ,这是是一个无限的创意画板,用于组织、生成、编辑和组合图 […]
Genmo 推出最新开源视频生成模型 Mochi 1。 Mochi 1 采用了Asymmetric Diffu […]
14岁少年 Sewell Setzer III 在与一款名为 Character.AI 的聊天机器人进行长时间 […]
ElevenLabs 推出全新的AI语音生成工具:Voice Design ,用户可以通过描述文本提示创建个性 […]
微软CEO Satya Nadella 伦敦巡讲 Satya Nadella 和 Jared Spataro […]
微软正在推出一种新的自主人工智能代理,也称为“虚拟员工”,这些AI代理能够执行多种业务任务,如处理客户查询、识 […]
Applicant AI 是一款由 Web3 Jobs 和 Remote OK 开发的基于AI的申请人跟踪系统 […]
在Adobe MAX 2024大会上,Adobe推出了一项创新AI工具Project Turntable,该工 […]
之前报道 Archetype AI 发布了一个创新的人工智能平台 —— Newton™,这是一个专门为理解物理 […]
Claude Financial Data Analyst 是一个结合了AI模型Claude和数据可视化技术的 […]
Meta Spirit LM 是Meta推出的一个开源的多模态语言模型,其设计目的是能够在语音和文本之间进行无 […]
Claude 3.5 Sonnet发布PDF图像预览新功能,允许用户分析长度不超过100页的PDF中的视觉内容 […]