首页 > Ai资讯 > Ai日报
Half_illustration:生成结合摄影和插画涂鸦元素的图像 一半是照片一半是插画
Half_illustration:生成结合摄影和插画涂鸦元素的图像 一半是照片一半是插画

Half_illustration模型是一个用于生成结合摄影和插画涂鸦元素的图像,基于Flux.1 模型训练。 […]

Rendora AI:你只需输入文字 就能在几秒钟内生成逼真的3D AI数字人视频
Rendora AI:你只需输入文字 就能在几秒钟内生成逼真的3D AI数字人视频

Rendora AI 是一个可以让你快速制作高质量3D形象的AI视频平台。你只需输入文字,就能在几秒钟内生成带 […]

麻省理工学院发布包含700多项与AI相关风险的数据库
麻省理工学院发布包含700多项与AI相关风险的数据库

麻省理工学院(MIT)的研究人员创建了一个名为“AI风险库”的数据库,记录了与人工智能(AI)相关的700多项 […]

教程:教您如何轻松将任意视频一键合成到任意背景上 附工作流下载
教程:教您如何轻松将任意视频一键合成到任意背景上 附工作流下载

Mickmumpitz开发的新AI驱动工作流程,旨在轻松地将视频合成到任意背景上。而且可以自动剪切主题,匹配背 […]

AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资 年化收入达150万美元
AI 学术搜索引擎 Consensus 完成 1150 万美元 A 轮融资 年化收入达150万美元

AI 学术搜索引擎 Consensus 宣布完成 1150 万美元的 A 轮融资。本轮融资由Union Squ […]

TurboEdit:基于文本的即时图像编辑 保持图像整体不变的情况下 实时修改特定区域
TurboEdit:基于文本的即时图像编辑 保持图像整体不变的情况下 实时修改特定区域

TurboEdit是一个由Adobe Research团队开发的工具,允许用户通过简单的文本描述快速实时编辑图 […]

字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音
字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音

Seed-ASR 是字节跳动开发的一种先进的自动语音识别(ASR)模型,基于大语言模型(LLM)框架构建。专门 […]

LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本
LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本

LongWriter 是一个由清华大学数据挖掘研究小组(THUDM)开发的开源项目,旨在利用长上下文大语言模型 […]

基于 SAM-2 自动识别和分割外科手术视频中的手术工具
基于 SAM-2 自动识别和分割外科手术视频中的手术工具

研究人员使用了Meta AI 的 Segment Anything Model 2 (SAM 2) 来评估其在 […]

OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token
OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token

OpenAI 推出 GPT-4o 的微调功能,允许开发者根据特定应用需求定制模型,从而提升性能和准确性。开发者 […]

v0 发布一个基于聊天的网页开发助手 可生成用户界面、自动编写运行代码
v0 发布一个基于聊天的网页开发助手 可生成用户界面、自动编写运行代码

v0 发布一个基于聊天的网页开发助手,你可以通过聊天的方式与v0互动,让它帮助调试代码、回答开发问题、生成代码 […]

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型,其属于Phi-3模型家族。该模型专为需要文本和 […]

谷歌开发出一种名为HeAR的生物声学模型 可通过咳嗽、说话、呼吸检测疾病
谷歌开发出一种名为HeAR的生物声学模型 可通过咳嗽、说话、呼吸检测疾病

随着深度学习技术的进步,神经网络现在能够直接从原始语音数据中学习高质量的通用表示(representation […]

特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金
特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

特斯拉正在雇佣员工通过穿戴动作捕捉服来帮助训练其人形机器人Optimus。该职位被称为“数据采集操作员”,时薪 […]

谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话
谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了其AI语音助手 Gemini Live 。Gemin […]

Google推出了全新的 Pixel 设备 同时推出更多AI功能 14 件
Google推出了全新的 Pixel 设备 同时推出更多AI功能 14 件

在 2024  Pixel 谷歌发布会上,Google推出了许多 Pixel 设备——Pixel 9、Pixe […]

AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审
AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审

The AI Scientist 是一个全面的自动化科学发现框架,利用先进的大语言模型(LLMs)来执行科学研 […]

MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化
MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化

MultiOn 推出了一种新型自主 AI 代理 Agent Q。Agent Q,一个自监督的代理推理和搜索框架 […]

Genie 一个更像人类工程师的 AI 模型 在编程任务中超越所有的现有AI模型
Genie 一个更像人类工程师的 AI 模型 在编程任务中超越所有的现有AI模型

Cosine发布了一款,专为软件工程设计的AI模型:Genie。Genie在SWE-Bench和SWE-Lit […]

IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息
IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息

IncarnaMind 是一个允许用户通过多种大语言模型(LLM)与个人文档(PDF、TXT)进行互动的工具, […]

OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例
OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例

OpenAI的客户成功经黄金和解决方案工程师举办了一个分享会,分享了员工如何使用 ChatGPT 企业版高效分 […]

SD变现宝:一键把 ComfyUI 工作流转换成各种小程序 并带有支付功能 可直接商业化
SD变现宝:一键把 ComfyUI 工作流转换成各种小程序 并带有支付功能 可直接商业化

ComfyUI_Bxb 是一个插件,可以将 ComfyUI 的工作流一键转换为微信小程序、抖音小程序、微信内H […]

VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合
VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合

在视频中插入手绘动画!传统上这是一项非常困难的任务,但 VideoDoodles 让它成为可能。 VideoD […]

ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸
ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸

ReSyncer是由清华大学、百度和南洋理工大学 S-Lab 实验室共同开发的一种新型框架,它能够生成非常逼真 […]

Google 开发出一个能够达到人类业余水平的乒乓球机器人
Google 开发出一个能够达到人类业余水平的乒乓球机器人

谷歌DeepMind的工程师团队开发了一款能够打业余水平乒乓球的机器人。该机器人的核心硬件基于ABB IRB […]

Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5
Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

Qwen2 团队推出了一系列专注于数学能力的语言模型:Qwen2-Math,旨在提升推理能力,特别是在解决算术 […]

苹果发布一种新的图像和视频生成方法:“套娃扩散模型” 可同时处理不同分辨率的图像
苹果发布一种新的图像和视频生成方法:“套娃扩散模型” 可同时处理不同分辨率的图像

苹果发布了Matryoshka Diffusion Models (MDM),一种新的图像和视频生成方法,可以 […]

LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你
LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你

LSLM(Listening-while-Speaking Language Model)是由上海交通大学X- […]

Matting by Generation:利用图像生成模型来实现更高质量的图像抠图
Matting by Generation:利用图像生成模型来实现更高质量的图像抠图

“Matting by Generation”是一种新的图像抠图方法,将传统的回归问题转换为生成模型问题,利用 […]

Deep-Live-Cam:实时换脸和一键视频深度伪造工具 只需单张图像即可实现人脸替换
Deep-Live-Cam:实时换脸和一键视频深度伪造工具 只需单张图像即可实现人脸替换

Deep-Live-Cam 是一个实时人脸交换和一键视频深伪工具。它能够利用单张图像对视频或其他图像进行人脸替 […]


1 4 5 6 7 8 29