首页 > Ai资讯 > Ai日报
Stripe 推出 Stripe Agent Toolkit:让 AI 代理能自动进行支付 帮你购物、订机票等
Stripe 推出 Stripe Agent Toolkit:让 AI 代理能自动进行支付 帮你购物、订机票等

Stripe Agent Toolkit 是专为将财务功能集成到 AI 代理中的 SDK。它允许开发者通过函数 […]

ElevenLabs 推出构建语言对话AI代理的功能 可使用其语音模型接入AI模型
ElevenLabs 推出构建语言对话AI代理的功能 可使用其语音模型接入AI模型

ElevenLabs 宣布其开发者平台新增了创建对话式AI代理的功能。 这项新功能允许开发者平台上构建对话式A […]

FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒
FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒

FLUX 1.1 Pro Ultra 发布,支持高达 4 兆像素的分辨率,并具有快速生成速度,每张图片仅需约 […]

X-Portrait 2:由字节跳动开发 可将任意视频角色的表情和动作转移到任意对象的技术
X-Portrait 2:由字节跳动开发 可将任意视频角色的表情和动作转移到任意对象的技术

上周Runway 推出了一款生成式角色表演工具,可以把视频转换成任意风格虚拟角色动画,并且保持表情语音口型同步 […]

苹果正式推出集成 Siri 和 Apple Intelligence新框架 Siri可以实时读取你屏幕信息并执行操作
苹果正式推出集成 Siri 和 Apple Intelligence新框架 Siri可以实时读取你屏幕信息并执行操作

苹果正式推出集成Siri 和 Apple Intelligence新框架:App Intents ,允许开发者 […]

Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互
Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

微软研究团队推出了 Magentic-One,一个通用的多智能体系统,具备在不同领域中处理开放性任务的能力。该 […]

Google 正式推出 Gemini AI 驱动的视频演示应用 Vids 通过简单提示即可生成视频演示
Google 正式推出 Gemini AI 驱动的视频演示应用 Vids 通过简单提示即可生成视频演示

Google 正式推出了其 Gemini AI 驱动的视频演示应用程序 Vids,用户可以通过简单的提示生成视 […]

NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答
NVIDIA 推出的 AI Blueprint:可以帮你观看数小时的视频并提供摘要总结和问答

NVIDIA 推出的 AI Blueprint , 这是一套用于构建视觉AI代理的框架,帮助开发者构建视频理解 […]

ChatGPT 帮我制定护肤方案   两个月让我的皮肤变成了这样…
ChatGPT 帮我制定护肤方案 两个月让我的皮肤变成了这样…

Reddit 用户 General-Implement83 分享了她如何使用 ChatGPT 定制了一个个性化 […]

字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图
字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

SeedEdit 是一个AI图像编辑工具,由 Doubao 团队开发。它的特殊之处在于,可以根据用户输入的文字 […]

Google DeepMind宣布开源其能够预测蛋白质结构的AI模型 AlphaFold 3
Google DeepMind宣布开源其能够预测蛋白质结构的AI模型 AlphaFold 3

Google DeepMind 和 Isomorphic Labs 宣布开源 AlphaFold 3 的模型代 […]

HeyGen 正在开放 API 你可以轻松创建数字人、进行视频翻译、部署交互式数字人
HeyGen 正在开放 API 你可以轻松创建数字人、进行视频翻译、部署交互式数字人

HeyGen 正在开放API,通过 HeyGen API,企业能够使用生动的虚拟人视频提升平台的互动性,转化原 […]

Fashion-VDM:通过给定的服装图像和人物视频 生成一段虚拟试穿视频
Fashion-VDM:通过给定的服装图像和人物视频 生成一段虚拟试穿视频

Fashion-VDM 是一个基于扩散模型(Video Diffusion Model,VDM)的虚拟试衣视频 […]

对标NotebookLM Play AI推出了PlayDialog:可生成自然对话播客、旁白以及自然交互
对标NotebookLM Play AI推出了PlayDialog:可生成自然对话播客、旁白以及自然交互

Play AI推出了PlayDialog beta,专门用于创建更加自然、富有表现力和情感的对话式语音输出。 […]

OpenAI 官方发布: ChatGPT 学生写作指南 指导学生如何正确使用GPT
OpenAI 官方发布: ChatGPT 学生写作指南 指导学生如何正确使用GPT

引言 使用得当,ChatGPT 可以成为一个强大的工具,帮助学生培养严谨思维和清晰写作的技能,帮助他们思考想法 […]

Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式
Thinking-Claude:让 Claude 实现类似OpenAI o1 模型一样的高级推理模式

“Thinking-Claude” 为Claude 提供系统化的思维流程指导,从而使其在回答问题前进行更深入和 […]

苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕
苹果发布 Final Cut Pro 11 新增多项AI功能 自动抠图和自动生成字幕

苹果发布 Final Cut Pro 11,这次重大更新为专业视频编辑带来了先进的 AI 驱动功能、空间视频编 […]

Context Autopilot:全球首个上下文引擎驱动的 AI 办公助手
Context Autopilot:全球首个上下文引擎驱动的 AI 办公助手

Context Autopilot 是由 Context 公司推出的一款 AI 办公助手,旨在通过先进的人工智 […]

ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定
ReadKidz:利用AI一键生成儿童绘本故事书和多媒体故事 可随心定制设定

ReadKidz 是一个专为儿童内容创作设计的 AI 驱动平台,提供一站式的儿童电子图画书和多媒体故事制作功能 […]

Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆
Fish Audio 发布语音到语音模型Fish Agent V0.1 3B 实现“即时”语音克隆

Fish Audio 发布高级语音处理模型Fish Agent V0.1 3B,它是一个语音到语音模型,它可以 […]

Rive 发布 Layouts 新功能 只需设计一次 图像动画自动适应屏幕大小和各种布局
Rive 发布 Layouts 新功能 只需设计一次 图像动画自动适应屏幕大小和各种布局

Rive 引入的新功能 Layouts 为设计师和开发者提供了一种方法,可以在各种设备上创建动态、响应式的动画 […]

 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数
 腾讯发布目前最大开源MoE模型:腾讯混元大模型(Hunyuan-Large) 具有 3890 亿参数

腾讯发布开源 Mixture of Experts(MoE)模型:腾讯混元大模型(Hunyuan-Large) […]

腾讯发布3D开源模型:混元-3D 10秒即可生成高分辨率细3D模型
腾讯发布3D开源模型:混元-3D 10秒即可生成高分辨率细3D模型

腾讯推出的一体化 3D 生成框架:混元3D-1.0 ,支持从文本和图像生成 3D 内容,仅需 10 秒便可生成 […]

Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟
Hertz-dev:首个会话音频开源模型 全双工实时语音交互 120毫秒超低延迟

Hertz-dev 是由 Standard Intelligence 公司开发的首个会话音频开源模型。hert […]

Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节
Recraft发布其最新图像生成模型:Recraft V3 可精确处理复杂长文本和手指等解剖学细节

Recraft推出了其最新的图像生成模型——Recraft V3。通过引入设计语言思维,Recraft V3能 […]

Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画
Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画

Act-One 是 Runway 的 Gen-3 Alpha 版本中的一款创新视频生成工具,能够通过简单的操作 […]

教程:使用 E2F5工具实现文本转语音和唇同步视频制作
教程:使用 E2F5工具实现文本转语音和唇同步视频制作

硬件与空间: 确保计算机上有 15GB 的可用磁盘空间。 本教程中的工具在大多数支持的硬件上运行良好,但更高性 […]

苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手
苹果发布 Ferret-UI 2 专门理解和与移动用户界面交互的模型 让手机成为通用UI助手

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。 它把 […]

π0:通用机器人策略模型 让机器人具备在人类环境中自主执行多种复杂任务的能力
π0:通用机器人策略模型 让机器人具备在人类环境中自主执行多种复杂任务的能力

Physical Intelligence 公司推出了 π0(pi-zero),这是一个通用的机器人策略模型, […]

Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知
Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知

Meta FAIR(基础人工智能研究团队)公开发布了多项新研究成果,旨在推动机器人技术的发展,以实现高级机器智 […]


1 2 3 31