Ai日报 - 第 18 页 - 智汇宝库

首页 > Ai资讯 > Ai日报

ToonCrafter：自动生成卡通动画的中间帧并根据参考图像对草图自动上色

ToonCrafter：自动生成卡通动画的中间帧并根据参考图像对草图自动上色

ToonCrafter 是一个帮助动画师生成和优化卡通动画过渡效果的工具。解决了卡通动画中帧与帧之间过渡不自然 […]

V-Express：根据单张个人照片生成视频并能通过多种信号控制视频内容

V-Express：根据单张个人照片生成视频并能通过多种信号控制视频内容

V-Express 是由南京大学和腾讯AI实验室共同开发的一项可以把单张照片变成视频的技术，并且它能够根据不同 […]

Udio推出新的udio-130音乐生成模型和更多高级功能

Udio推出新的udio-130音乐生成模型和更多高级功能

Udio推出新的udio-130音乐生成模型，可以生成2分钟的音频，帮助创建更具连贯性和结构的曲目。这意味着 […]

ViViD：视频虚拟试穿技术可以随意替换视频中人物的衣服

ViViD：视频虚拟试穿技术可以随意替换视频中人物的衣服

随着互联网和电子商务行业的快速发展，消费者通过在线平台可以方便地接触到各种类型的服装。然而，单纯依赖电商网站上 […]

Apten：AI 驱动的短信助手让AI通过短信和你的客户进行交流

Apten：AI 驱动的短信助手让AI通过短信和你的客户进行交流

Apten是一种AI驱动的SMS助手，帮助B2C企业通过短信自动化销售、营销和客户服务。Apten可以个性化配 […]

ChatTTS：专门为对话场景设计的文本到语音TTS模型，支持中英文

ChatTTS：专门为对话场景设计的文本到语音TTS模型，支持中英文

ChatTTS 是一个专门为对话场景设计的文本到语音模型，支持中英文，能生成自然流畅的对话语音。这个项目提供了 […]

Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型性能与GPT-4V相当

Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型性能与GPT-4V相当

Llama3-V 是基于 Llama3 的多模态模型，能够处理图像输入并生成对应的文本描述，适用于多种多模态任 […]

Khoj：一个开源的个人化AI 助手能连接你的在线和本地文档充当你的第二大脑

Khoj：一个开源的个人化AI 助手能连接你的在线和本地文档充当你的第二大脑

Khoj 是一个开源的、个人化的 AI 助手，旨在充当你的第二大脑。它能够帮助你回答任何问题，不论这些问题是在 […]

StreamV2V：实时视频转换的工具可以进行视频实时换脸和风格转换

StreamV2V：实时视频转换的工具可以进行视频实时换脸和风格转换

StreamV2V 是一个可以实现实时视频转换的工具，能够在一个 RTX 4090 显卡上运行。它可以用来做面 […]

Look Once to Hear：全新的降噪耳机只需注视对方即可放大或者消除对方声音

Look Once to Hear：全新的降噪耳机只需注视对方即可放大或者消除对方声音

“Look Once to Hear” 是一个智能耳机系统，通过短暂注视目标说话者即可在嘈杂环境中提取其语音并 […]

SignLLM ：第一个通过输入文字描述生成手语手势视频的多语言手语模型！

SignLLM ：第一个通过输入文字描述生成手语手势视频的多语言手语模型！

SignLLM 是首个多语言手语数据集及其生成模型，旨在通过先进的人工智能技术生成和翻译多种手语。该项目引入了 […]

如何将自己融入到一幅 Midjourney 生成的图片中，并使其动画化

如何将自己融入到一幅 Midjourney 生成的图片中，并使其动画化

如何将自己融入到一幅 Midjourney 生成的图片中，并使其动画化。让你可以成为动画中真正的演员并能控制角 […]

Stability AI 推出Stable Assistant 聊天机器人能聊天能生图能出视频

Stability AI 推出Stable Assistant 聊天机器人能聊天能生图能出视频

Stability AI 推出Stable Assistant聊天机器人，集成了最新的文本和图像生成技术。视 […]

LlamaFS：基于Llama 3的能自动帮你分类整理电脑里文件的工具

LlamaFS：基于Llama 3的能自动帮你分类整理电脑里文件的工具

LlamaFS 是一个自动整理文件的系统。它基于Llama 3，可以帮你自动重命名和组织电脑里的文件。自动整 […]

Canva推出了一系列新功能和工具 16 项重要更新介绍

Canva推出了一系列新功能和工具 16 项重要更新介绍

Canva推出了一系列新功能和工具，旨在改变工作方式，提高团队协作效率。这些新功能包括： Magic Stud […]

ReVideo允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

ReVideo允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

ReVideo是一个创新的视频编辑工具，允许用户通过指定内容和运动来精确地编辑视频。与现有的方法不同，ReVi […]

Pandora：能够根据自然语言指令生成视频并能实时进行视频控制的通用世界模型

Pandora：能够根据自然语言指令生成视频并能实时进行视频控制的通用世界模型

Pandora 是一个混合自回归-扩散模型，通过生成视频来模拟世界状态，并允许通过自然语言实时控制。它能够根 […]

OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

OpenAI 开发人员体验主管 Romain Huet 在VivaTech发表的演讲，他在台上发布他们的最新创 […]

RAGApp：无需编写代码，轻松构建企业级RAG聊天机器人

RAGApp：无需编写代码，轻松构建企业级RAG聊天机器人

RAGapp 是一个简便的企业级 Agentic RAG应用，旨在帮助企业用户高效使用人工智能（AI）技术。R […]

YOLO v10：毫秒级实时的端到端目标检测开源模型

YOLO v10：毫秒级实时的端到端目标检测开源模型

YOLOv10 是一个开源的实时端到端目标检测系统，由清华大学多媒体智能组（THU-MIG）开发。意味着从输 […]

Flawless：利用AI创建与原版电影一样沉浸和真实的唇形同步配音版本

Flawless：利用AI创建与原版电影一样沉浸和真实的唇形同步配音版本

Flawless 是生成式人工智能电影制作技术的先驱，提供具有电影级质量的 AI 驱动工具，服务于电影制作人、 […]

Responder 无人机对接911报警系统可70秒抵达案发现场实时监控

Responder 无人机对接911报警系统可70秒抵达案发现场实时监控

BRINC推出了一款名为 Responder 无人机，专为公共安全和应急响应设计。该无人机及其充电站（Resp […]

SpeechVerse：通用音频语言模型可进行自动语音识别、语音翻译、情感识别

SpeechVerse：通用音频语言模型可进行自动语音识别、语音翻译、情感识别

SpeechVerse是由亚马逊 AWS 人工智能实验室开发的一个大型通用音频语言模型（Audio Langu […]

微软推出新版 Power Automate 通过语音命令和演示教会 AI帮你自动化干活

微软推出新版 Power Automate 通过语音命令和演示教会 AI帮你自动化干活

Microsoft推出了新版Power Automate，为用户带来了前所未有的AI驱动的自动化体验。这一版本 […]

Dolphin Mixtral 1x22b：去除对齐和偏见没有任何审查和道德限制的模型

Dolphin Mixtral 1x22b：去除对齐和偏见没有任何审查和道德限制的模型

Dolphin 2.9.1 Mixtral 1x22b是Cognitive Computations团队创建的 […]

使用 ChatGPT 像专业人类分析师一样进行财务报表分析

使用 ChatGPT 像专业人类分析师一样进行财务报表分析

本文研究了大语言模型（LLM）是否可以像专业人类分析师一样成功地进行财务报表分析。由芝加哥大学布斯商学院研究。 […]

Truecaller 与微软合作允许用户克隆自己的声音来让AI接听电话

Truecaller 与微软合作允许用户克隆自己的声音来让AI接听电话

Truecaller是一款识别和拦截垃圾电话的应用程序，现在将允许用户创建自己的AI语音来接听电话。 True […]

Model Explorer：Google开放能理解和调试优化大语言模型图形可视化工具

Model Explorer：Google开放能理解和调试优化大语言模型图形可视化工具

现代机器学习（ML）模型的规模和复杂性增加，使得现有的图形可视化工具难以处理大规模的Transformer模型 […]

Google推出 LearnLM 教育模型工具专门用于提升教育和学习体验

Google推出 LearnLM 教育模型工具专门用于提升教育和学习体验

Google推出了LearnLM，这是一组基于Gemini的新模型，专门用于提升教育和学习体验。它们基于教育 […]

2024Microsoft Build大会超全纪录新的Phi-3多模态模型、Copilot Agents

2024Microsoft Build大会超全纪录新的Phi-3多模态模型、Copilot Agents

在2024年的Microsoft Build大会上，微软展示了一系列在AI工具和技术方面的重大进展发布会要点 […]

1 … 16 17 18 19 20 … 32