Ai日报 - 第 2 页 - 智汇宝库

首页 > Ai资讯 > Ai日报

苹果发布 Final Cut Pro 11 新增多项AI功能自动抠图和自动生成字幕

苹果发布 Final Cut Pro 11 新增多项AI功能自动抠图和自动生成字幕

苹果发布 Final Cut Pro 11，这次重大更新为专业视频编辑带来了先进的 AI 驱动功能、空间视频编 […]

Context Autopilot：全球首个上下文引擎驱动的 AI 办公助手

Context Autopilot：全球首个上下文引擎驱动的 AI 办公助手

Context Autopilot 是由 Context 公司推出的一款 AI 办公助手，旨在通过先进的人工智 […]

ReadKidz：利用AI一键生成儿童绘本故事书和多媒体故事可随心定制设定

ReadKidz：利用AI一键生成儿童绘本故事书和多媒体故事可随心定制设定

ReadKidz 是一个专为儿童内容创作设计的 AI 驱动平台，提供一站式的儿童电子图画书和多媒体故事制作功能 […]

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B，它是一个语音到语音模型，它可以 […]

Rive 发布 Layouts 新功能只需设计一次图像动画自动适应屏幕大小和各种布局

Rive 发布 Layouts 新功能只需设计一次图像动画自动适应屏幕大小和各种布局

Rive 引入的新功能 Layouts 为设计师和开发者提供了一种方法，可以在各种设备上创建动态、响应式的动画 […]

腾讯发布目前最大开源MoE模型：腾讯混元大模型（Hunyuan-Large）具有 3890 亿参数

腾讯发布目前最大开源MoE模型：腾讯混元大模型（Hunyuan-Large）具有 3890 亿参数

腾讯发布开源 Mixture of Experts（MoE）模型：腾讯混元大模型（Hunyuan-Large） […]

腾讯发布3D开源模型：混元-3D 10秒即可生成高分辨率细3D模型

腾讯发布3D开源模型：混元-3D 10秒即可生成高分辨率细3D模型

腾讯推出的一体化 3D 生成框架：混元3D-1.0 ，支持从文本和图像生成 3D 内容，仅需 10 秒便可生成 […]

Hertz-dev：首个会话音频开源模型全双工实时语音交互 120毫秒超低延迟

Hertz-dev：首个会话音频开源模型全双工实时语音交互 120毫秒超低延迟

Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hert […]

Recraft发布其最新图像生成模型：Recraft V3 可精确处理复杂长文本和手指等解剖学细节

Recraft发布其最新图像生成模型：Recraft V3 可精确处理复杂长文本和手指等解剖学细节

Recraft推出了其最新的图像生成模型——Recraft V3。通过引入设计语言思维，Recraft V3能 […]

Runway Act-One 使用教程：仅通过单个视频和任意角色图像生成生动的表演动画

Runway Act-One 使用教程：仅通过单个视频和任意角色图像生成生动的表演动画

Act-One 是 Runway 的 Gen-3 Alpha 版本中的一款创新视频生成工具，能够通过简单的操作 […]

教程：使用 E2F5工具实现文本转语音和唇同步视频制作

教程：使用 E2F5工具实现文本转语音和唇同步视频制作

硬件与空间：确保计算机上有 15GB 的可用磁盘空间。本教程中的工具在大多数支持的硬件上运行良好，但更高性 […]

苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型让手机成为通用UI助手

苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型让手机成为通用UI助手

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面（UI）互动的多模态大语言模型（MLLM）。它把 […]

π0：通用机器人策略模型让机器人具备在人类环境中自主执行多种复杂任务的能力

π0：通用机器人策略模型让机器人具备在人类环境中自主执行多种复杂任务的能力

Physical Intelligence 公司推出了 π0（pi-zero），这是一个通用的机器人策略模型， […]

Meta FAIR发布人工多模态指尖具有人类级别的触觉感知能力增强机器人触觉感知

Meta FAIR发布人工多模态指尖具有人类级别的触觉感知能力增强机器人触觉感知

Meta FAIR（基础人工智能研究团队）公开发布了多项新研究成果，旨在推动机器人技术的发展，以实现高级机器智 […]

Claude 3.5 新功能支持对 100 页的PDF 图像、图表和图形进行可视化分析

Claude 3.5 新功能支持对 100 页的PDF 图像、图表和图形进行可视化分析

Claude 3.5 Sonnet发布PDF图像预览新功能，允许用户分析长度不超过100页的PDF中的视觉内容 […]

In-Context LoRA：给图像生成模型增加“情节记忆力”和“角色一致性”的能力

In-Context LoRA：给图像生成模型增加“情节记忆力”和“角色一致性”的能力

In-Context LoRA是一种新方法，用于对文本到图像的生成模型（如扩散变换器，DiTs）进行微调，使其 […]

X-to-Voice：输入你的 Twitter 账号名称自动生成能说话的个人资料头像

X-to-Voice：输入你的 Twitter 账号名称自动生成能说话的个人资料头像

ElevenLabs 发布了一个开源的小项目，X-to-Voice ，允许用户通过分析 Twitter 资料生 […]

OpenAI 高层 Reddit AMA 完整版

OpenAI 高层 Reddit AMA 完整版

OpenAI 高层 Reddit AMA 完整翻译 GPT-5 及即将推出的模型 GPT-5：今年没有发布 G […]

Google Gemini API 新增“搜索锚定”功能利用 Google 搜索实时数据确保准确性

Google Gemini API 新增“搜索锚定”功能利用 Google 搜索实时数据确保准确性

Google 宣布在其 Gemini API 和 Google AI Studio 中推出新功能“Google […]

Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation

Wonder Dynamics 推出可将传统视频片段自动转换为 3D 动画场景新技术——Wonder Animation

Wonder Dynamics 推出了一项开创性的新技术——Wonder Animation，可以将传统视频片 […]

D-ID推出了两款新数字人工具只需一分钟视频训练即可生成支持复杂表现

D-ID推出了两款新数字人工具只需一分钟视频训练即可生成支持复杂表现

AI视频平台D-ID推出了两款新型数字人工具—Express和Premium+，专为内容创作设计，旨在让企业在 […]

Google DeepMind 公布其NotebookLM背后的创新音频生成技术使 AI 能够生成更加自然的对话

Google DeepMind 公布其NotebookLM背后的创新音频生成技术使 AI 能够生成更加自然的对话

DeepMind 公布其正在开发一套创新的音频生成技术细节，也就是NotebookLM背后使用的语音技术。使 […]

Ultralight-Digital-Human ：支持在移动设备上实时运行的超轻量级数字人模型

Ultralight-Digital-Human ：支持在移动设备上实时运行的超轻量级数字人模型

Ultralight-Digital-Human 是一个创新的开源项目，使得数字人在移动设备上的实时应用成为可 […]

NotebookLlama：Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

NotebookLlama：Meta 发布了一个通过Llama从 PDF 文件生成播客的引导式教程

NotebookLlama 是一套用于从 PDF 文件生成播客的引导式教程，结合了文本到语音（TTS）模型的应 […]

MaskGCT：零样本文本到语音（TTS）模型支持跨语言配音、语音转换、情感控制等

MaskGCT：零样本文本到语音（TTS）模型支持跨语言配音、语音转换、情感控制等

MaskGCT（Masked Generative Codec Transformer）是一种零样本文本到语音 […]

PersonaTalk：字节跳动开发出可精准给视频进行AI配音的模型能保持口型同步、说话风格完美匹配

PersonaTalk：字节跳动开发出可精准给视频进行AI配音的模型能保持口型同步、说话风格完美匹配

PersonaTalk 是由字节跳动开发的一种专为实现高保真和个性化视觉配音的技术框架，也就是专门用来给视频人 […]

Omne：通过多智能体合作解决AI长期记忆能力并提高AI推理能力

Omne：通过多智能体合作解决AI长期记忆能力并提高AI推理能力

长期记忆（LTM）是AI自进化的核心，它允许模型通过与环境的持续交互，累积并存储经验数据。这些数据可以在未来的 […]

Google 更新 MusicFX DJ 可以像DJ一样灵活控制音乐生成和编辑

Google 更新 MusicFX DJ 可以像DJ一样灵活控制音乐生成和编辑

Google DeepMind 发布了一项新的生成式 AI 技术，这项技术被应用在了 MusicFX DJ 和 […]

Cloudflare推出了一个新的开发工具：Workflows 大幅简化多步骤应用的构建

Cloudflare推出了一个新的开发工具：Workflows 大幅简化多步骤应用的构建

Cloudflare推出了一个新的开发工具：Workflows。的持久执行引擎，目前已进入公开测试阶段。这项工 […]

智谱 AI 这次是真的国际领先了发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

智谱 AI 这次是真的国际领先了发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

前天，Claude 才发布 Computer Use，让AI可以像人一样操控你的电脑来干活，已经很炸裂了。这 […]

1 2 3 4 … 32