首页 > Ai资讯 > Ai日报
实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译
实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

该项目是一个实时打字翻译软件,提供语音实时打字、语音实时翻译功能,尤其适用于游戏(如LOL)的语音打字输入。其 […]

Meta  AI推出AI Studio平台 基于lama 3.1 用户可以自己创建自己的AI角色
Meta  AI推出AI Studio平台 基于lama 3.1 用户可以自己创建自己的AI角色

Meta  AI推出 AI Studio 平台,让用户可以创建、分享和发现 AI 角色。这个平台基于 Llam […]

生数科技的 Vidu 视频模型开放 Sora架构 可模仿真实物理世界 开放了API申请
生数科技的 Vidu 视频模型开放 Sora架构 可模仿真实物理世界 开放了API申请

生数科技的 Vidu 模型直接开放了 官方称不到30秒可以生成一个4秒钟的视频… 根据演示视频来看,效果还不错 […]

Mem0:为大语言模型提供永久记忆能力 实现跨应用程序的个性化AI体验
Mem0:为大语言模型提供永久记忆能力 实现跨应用程序的个性化AI体验

Mem0为大语言模型提供了一层智能的、自我改进的记忆层,用于大语言模型(LLM),以实现跨应用程序的个性化AI […]

E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”
E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

多模态大语言模型(MLLMs)已经在理解图像和文本方面取得了很大的进展,但在如何表示和整合这两种类型的信息方面 […]

Live_Portrait_Monitor :利用摄像头驱动静态图像转换为实时动态视频
Live_Portrait_Monitor :利用摄像头驱动静态图像转换为实时动态视频

Live_Portrait_Monitor 基于快手的这个 LivePortrait 项目,实现了摄像头驱动图 […]

WayveScenes101:一个用于自动驾驶应用的高分辨率图像数据集
WayveScenes101:一个用于自动驾驶应用的高分辨率图像数据集

WayveScenes101 是一个用于自动驾驶应用的高分辨率图像数据集,主要用于新视角合成(novel vi […]

AudioNotes:音视频内容转笔记系统 快速提取音视频的内容并转成Markdown笔记
AudioNotes:音视频内容转笔记系统 快速提取音视频的内容并转成Markdown笔记

AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频内容转结构化笔记系统。它的主要功能 […]

Unique 3D:不到30秒 从任意RGB图像中生成高保真3D模型
Unique 3D:不到30秒 从任意RGB图像中生成高保真3D模型

Unique3D 是一个创新的图像到3D框架,可以从任意对象的单一正交RGB图像中生成高保真3D纹理网格,生成 […]

微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计
微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计

微软正式推出 Microsoft Designer,这是一款创新的设计应用程序,利用人工智能技术赋予用户全新的 […]

Mistral AI 和NVIDIA 发布 Mistral NeMo 12B 参数模型 该模型旨在支持企业应用
Mistral AI 和NVIDIA 发布 Mistral NeMo 12B 参数模型 该模型旨在支持企业应用

Mistral AI 宣布发布 Mistral NeMo,这是一个由 NVIDIA 协作开发的 12B 参数模 […]

StockBot:由Llama3-70B驱动的实时股票数据和新闻的聊天机器人
StockBot:由Llama3-70B驱动的实时股票数据和新闻的聊天机器人

StockBot由Llama3-70B模型驱动,运行在Groq上,能够提供实时股票图表、财务数据、新闻的聊天机 […]

苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题
苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题

MUSCLE(Model Update Strategy for Compatible LLM Evoluti […]

IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景
IMAGDressing-v1 :自定义虚拟试衣系统 可灵活控制模特面孔、姿势和场景

IMAGDressing-v1 是一个自定义虚拟试衣系统,可生成可自由编辑的人像图像。该系统主要面向商家,帮助 […]

ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言
ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言

ElevenLabs 推出了新款 Turbo 2.5 模型。 支持印地语、法语、西班牙语、普通话和其他共32 […]

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜
OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜

OpenAI推出了GPT-4o mini模型,用来取代GPT-3.5,这是目前市场上最具成本效益的小模型。 该 […]

TCAN:从视频中提取人物姿态动作 转移给图片 能让静态图片动起来
TCAN:从视频中提取人物姿态动作 转移给图片 能让静态图片动起来

TCAN项目致力于创建一个能够根据视频姿态生成一致性人像动画的方法。 也就是通过从视频中提取人物姿态动作,然后 […]

Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行
Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

SmolLM 是由 Hugging Face 推出的一个小型语言模型系列,具有 135M、360M 和 1.7 […]

OpenAI 提出了一种新方法 来提高模型输出答案的可读性 确保输出正确且易于理解
OpenAI 提出了一种新方法 来提高模型输出答案的可读性 确保输出正确且易于理解

研究表明,仅通过优化链式思维(Chain-of-Thought, CoT)来解答问题,仅仅追求答案的正确性,可 […]

DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频
DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

DETECT-2B 是由 Resemble AI 开发的一种先进的音频深度伪造检测工具。它旨在快速、准确地识别 […]

使用 Vercel 和 Nextjs 技术 开发一个 RAG(检索增强生成)系统
使用 Vercel 和 Nextjs 技术 开发一个 RAG(检索增强生成)系统

Baptiste Adrien 在X上介绍了其正在使用 @vercel 和 @nextjs 技术,开发一个 R […]

电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映
电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

由电影制作人和科学家共同打造的Flawless公司,可能终于跨越了内容配音的“恐怖谷”(Uncanny Val […]

Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 
Mistral 发布了2个7B小模型: Codestral Mamba 7B 和 Mathstral 7B 

Mistral 通过 Mamba 2架构训练了一个7B 的代码模型:Codestral Mamba,以及新推出 […]

阿里巴巴发布语音模型:Qwen2-Audio 可与模型直接语音对话和分析转录各种声音
阿里巴巴发布语音模型:Qwen2-Audio 可与模型直接语音对话和分析转录各种声音

阿里巴巴发布了一个音频处理模型:Qwen2-Audio ,它可以通过语音聊天和音频分析两种方式与用户互动。在语 […]

Exa AI:真正的AI搜索引擎 要做 AI 领域的 Google
Exa AI:真正的AI搜索引擎 要做 AI 领域的 Google

又一个AI搜索引擎诞生:Exa AI。该公司最近宣布获得了1700万美元的A轮融资,由Lightspeed领投 […]

H2O-Danube3:无需联网 可以直接在手机上运行的开源模型
H2O-Danube3:无需联网 可以直接在手机上运行的开源模型

H2O-Danube3 是一个由 H2O.ai 开发的一系列小型语言模型。这些模型旨在提供高效的自然语言处理能 […]

微软团队研究出一种新的方 可以让大语言模型更好地理解和处理电子表格数据
微软团队研究出一种新的方 可以让大语言模型更好地理解和处理电子表格数据

微软研究团队提出了一种新的方法,旨在帮助大语言模型(如GPT-4)更好地理解和处理电子表格数据。传统方法在处理 […]

AutoGPT:使用“Blocks”像搭积木一样创建和使用AI代理的过程
AutoGPT:使用“Blocks”像搭积木一样创建和使用AI代理的过程

AutoGPT是一个开源工具,旨在简化创建和使用AI代理的过程。用户可以通过一个简单的图表式界面设计代理,并在 […]

RenderNet Al 推出视频换脸功能 可轻松通过照片更改视频人物面容
RenderNet Al 推出视频换脸功能 可轻松通过照片更改视频人物面容

RenderNet Al是一款强大的图像生成工具,专注于创建一致的角色,并控制其姿势、构图和风格。 现在推出了 […]

谷歌开发出一个实时语音转换系统 在不改变语音内容和语调的情况下 改变说话者音色
谷歌开发出一个实时语音转换系统 在不改变语音内容和语调的情况下 改变说话者音色

StreamVC 是由Google开发的一个实时语音转换系统,可以在不改变语音内容和语调的情况下,改变说话者的 […]


1 9 10 11 12 13 31