首页 > Ai资讯 > Ai日报
Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型
Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

Omni-Zero-Couples 是一个用于生成风格化情侣肖像的扩散模型,支持零样本输入。用户可以通过上传照 […]

2VEdit :一种基于图像到视频扩散模型视频编辑方法 只需编辑第一帧即可应用到整个视频效果
2VEdit :一种基于图像到视频扩散模型视频编辑方法 只需编辑第一帧即可应用到整个视频效果

2VEdit 是一种基于图像到视频扩散模型的视频编辑方法,其核心思想是通过编辑视频中的单个画面(第一帧),然后 […]

Notion 发布全新的Notion AI 集成搜索、生成内容、分析数据和智能聊天等功能
Notion 发布全新的Notion AI 集成搜索、生成内容、分析数据和智能聊天等功能

新的 Notion AI 集成了搜索、生成内容、分析数据和智能聊天等功能,所有操作都可以在 Notion 内部 […]

Meta AI 发布Orion AR眼镜 眼镜集成了能够感知周围环境的AI 目标是替代智能手机
Meta AI 发布Orion AR眼镜 眼镜集成了能够感知周围环境的AI 目标是替代智能手机

Meta AI 发布Orion AR眼镜,这是是一款具有潜力的增强现实设备,旨在替代智能手机。Meta 公司介 […]

Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行
Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行

Meta AI 发布 Llama 3.2多模态AI模型,旨在提供强大的自然语言处理和图像理解能力。其设计目标是 […]

Molmo 一个完全开源的多模态模型 支持2D指向交互 性能仅次于GPT-4o
Molmo 一个完全开源的多模态模型 支持2D指向交互 性能仅次于GPT-4o

Molmo 一个开源的先进多模态人工智能模型,旨在提高开放系统在性能上与专有系统(如商业模型)之间的竞争力,特 […]

换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑
换脸应用 FaceFusion 升级为 “面部操控平台” 支持面部表情恢复迁移编辑

FaceFusion 是一个用于面部交换、深度伪造的项目,在经历了四个月的高强度工作后,FaceFusion宣 […]

Google发布全球185个各大企业的生成式AI实际应用落地案例
Google发布全球185个各大企业的生成式AI实际应用落地案例

Google发布了一篇文章,详细介绍了185个来自全球各大企业的生成式AI实际应用案例。 这些案例展示了生成式 […]

MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物
MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物

MIMO是一个生成虚拟角色动画的工具。它能够让用户通过一张图片和简单的动作信息(如图片、动作序列或视频),生成 […]

OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高
OpenAI 推理模型 o1 评估研究报告 准确率高达 97.8% 远超其他 LLM 模型 但成本很高

随着o1 模型的发布,OpenAI提出了一种全新的大规模推理模型(Large Reasoning Model, […]

字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等
字节跳动发布一些列新的模型 包括基于DIT的视频生成模型、音乐模型,同声传译模型等

字节跳动今天发布一些列新的模型。包括音乐模型,同声传译模型、文生图2.0模型、新的基于DIT的视频生成模型、豆 […]

Google DeepMind 推出通过强化学习实现自我纠正(SCoRe)的训练方法 提高模型在复杂数学和编码任务中的准确性
Google DeepMind 推出通过强化学习实现自我纠正(SCoRe)的训练方法 提高模型在复杂数学和编码任务中的准确性

大语言模型(LLMs)在数学问题解决和代码生成等推理和科学领域展现了强大的能力。然而,当前的LLMs在“自我纠 […]

n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境
n8n推出自托管 AI 入门工具包 可在本地快速部署AI项目和低代码开发环境

n8n推出了Self-Hosted AI Starter Kit 自托管 AI 入门工具包,帮助用户在本地或私 […]

Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达
Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达

Moshi 是一个多流(multi-stream)的实时语音到语音生成 Transformer 模型,支持全双 […]

Sketch 推出 Smart Animate 新功能 可在原型设计中加入流畅的动画效果
Sketch 推出 Smart Animate 新功能 可在原型设计中加入流畅的动画效果

Sketch 发布 Smart Animate 新功能,用于在设原型计中加入流畅的动画效果。通过 Smart […]

PDF2Audio:将 PDF 文件转换为播客、讲座、摘要等音频内容
PDF2Audio:将 PDF 文件转换为播客、讲座、摘要等音频内容

PDF2Audio 是一个开源项目,旨在将 PDF 文件转换为音频格式,如播客、讲座或摘要。该项目利用 Ope […]

将TI-84计算器改装连接到互联网 并接入ChatGPT 实现作弊功能
将TI-84计算器改装连接到互联网 并接入ChatGPT 实现作弊功能

这段视频展示了如何修改TI-84计算器,让 TI-84 计算器能够执行如联网聊天、下载作弊小抄、访问 GPT […]

OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式
OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心 激励模型学习是培养 AGI 的最佳方式

OpenAI 首席科学家,也是OpenAI o1模型团队的主要成员Hyung Won Chung,在 MIT […]

TurboEdit:基于文本提示实现亚秒级实时图像编辑 相比传统方法实现了 6到630倍的速度提升
TurboEdit:基于文本提示实现亚秒级实时图像编辑 相比传统方法实现了 6到630倍的速度提升

扩散模型(Diffusion Models)在文本引导图像生成领域中表现出强大的生成能力,允许用户通过自然语言 […]

Deepgram 推出了全新的AI语音代理API 能够进行实时自然的语音对话
Deepgram 推出了全新的AI语音代理API 能够进行实时自然的语音对话

Deepgram推出了全新的AI语音代理API,这是一个统一的语音对话API,旨在让AI代理能够进行自然的对话 […]

StoryMaker:一致性角色图像解决方案 能同时保持面部、服装、发型和身体姿态一致性
StoryMaker:一致性角色图像解决方案 能同时保持面部、服装、发型和身体姿态一致性

StoryMaker是一个旨在生成一致性角色图像的个性化解决方案。它不仅可以在多人物场景中保持角色的面部一致性 […]

LVCD:专门为动画视频线稿上色工具 把黑白线稿自动转化为彩色动画视频
LVCD:专门为动画视频线稿上色工具 把黑白线稿自动转化为彩色动画视频

LVCD 是一个专门为动画视频线稿上色设计的工具。它通过一种新的方法,把黑白线稿自动转化为彩色动画视频。 传统 […]

Claude 引入上下文检索技术 大幅提高RAG的性能和检索准确率
Claude 引入上下文检索技术 大幅提高RAG的性能和检索准确率

为了让 AI 模型在特定环境中更有用,它往往需要访问背景知识。例如,客户支持聊天机器人需要了解它所服务的具体业 […]

阿里云发布Qwen2.5 系列基础开源模型和Qwen2.5-Coder 和 Qwen2.5-Math专有模型
阿里云发布Qwen2.5 系列基础开源模型和Qwen2.5-Coder 和 Qwen2.5-Math专有模型

阿里云发布Qwen2.5 系列模型,最新发布的 Qwen2.5 系列中包括普通的大语言模型 (LLM) 以及针 […]

Libcimbar:无需联网、蓝牙、NFC 扫描二维码即可传输文件
Libcimbar:无需联网、蓝牙、NFC 扫描二维码即可传输文件

Libcimbar 是一个用于数据传输的工具,通过一种特殊的二维条码格式(色彩图标矩阵条码)来进行隔空数据传输 […]

YouTubeVeo 引入Google DeepMind 的 Veo 模型 创作者可使用Veo创作视频
YouTubeVeo 引入Google DeepMind 的 Veo 模型 创作者可使用Veo创作视频

YouTube Shorts 将引入Google DeepMind的Veo模型,它允许创作者制作6秒的独立视频 […]

微软Office全家桶大更新 Excel 中集成 Python 推出 Pages和Copilot Agents等众多功能
微软Office全家桶大更新 Excel 中集成 Python 推出 Pages和Copilot Agents等众多功能

微软推出了 Microsoft 365 Copilot 的第二波更新,将网页、工作和 Pages 整合为一个新 […]

Seed-Music:字节跳动开发的音乐生成模型 支持多种数据输入生成和编辑音乐
Seed-Music:字节跳动开发的音乐生成模型 支持多种数据输入生成和编辑音乐

Seed-Music是一个由字节跳动研发的音乐生成模型,用户可以通过输入多模态数据(如文本描述、音频参考、乐谱 […]

Snap 发布第五代 Spectacles AR 眼镜 内置AI 可通过语音提示直接生成 3D 动画
Snap 发布第五代 Spectacles AR 眼镜 内置AI 可通过语音提示直接生成 3D 动画

Snap公司发布了第五代SpectaclesAR 眼镜,新版Spectacles具备更高质量的显示效果和更长的 […]

Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中
Luma AI 推出 Dream Machine API 开发者可将AI视频生成能力无缝集成到自己的产品中

Luma AI 正式发布其创新产品 Dream Machine API。该 API 为开发者提供了世界上最受欢 […]


1 3 4 5 6 7 32