首页 > Ai资讯 > Ai日报
字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音
字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音

Seed-ASR 是字节跳动开发的一种先进的自动语音识别(ASR)模型,基于大语言模型(LLM)框架构建。专门 […]

LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本
LongWriter:让LLMs能够生成超过 10000 字甚至20000 字连贯高质量的文本

LongWriter 是一个由清华大学数据挖掘研究小组(THUDM)开发的开源项目,旨在利用长上下文大语言模型 […]

基于 SAM-2 自动识别和分割外科手术视频中的手术工具
基于 SAM-2 自动识别和分割外科手术视频中的手术工具

研究人员使用了Meta AI 的 Segment Anything Model 2 (SAM 2) 来评估其在 […]

OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token
OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token

OpenAI 推出 GPT-4o 的微调功能,允许开发者根据特定应用需求定制模型,从而提升性能和准确性。开发者 […]

v0 发布一个基于聊天的网页开发助手 可生成用户界面、自动编写运行代码
v0 发布一个基于聊天的网页开发助手 可生成用户界面、自动编写运行代码

v0 发布一个基于聊天的网页开发助手,你可以通过聊天的方式与v0互动,让它帮助调试代码、回答开发问题、生成代码 […]

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型,其属于Phi-3模型家族。该模型专为需要文本和 […]

谷歌开发出一种名为HeAR的生物声学模型 可通过咳嗽、说话、呼吸检测疾病
谷歌开发出一种名为HeAR的生物声学模型 可通过咳嗽、说话、呼吸检测疾病

随着深度学习技术的进步,神经网络现在能够直接从原始语音数据中学习高质量的通用表示(representation […]

特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金
特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

特斯拉正在雇佣员工通过穿戴动作捕捉服来帮助训练其人形机器人Optimus。该职位被称为“数据采集操作员”,时薪 […]

谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话
谷歌发布 Gemini Live AI 语音助手 对标GPT 4o 可模拟真人连续对话

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了其AI语音助手 Gemini Live 。Gemin […]

Google推出了全新的 Pixel 设备 同时推出更多AI功能 14 件
Google推出了全新的 Pixel 设备 同时推出更多AI功能 14 件

在 2024  Pixel 谷歌发布会上,Google推出了许多 Pixel 设备——Pixel 9、Pixe […]

AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审
AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审

The AI Scientist 是一个全面的自动化科学发现框架,利用先进的大语言模型(LLMs)来执行科学研 […]

MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化
MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化

MultiOn 推出了一种新型自主 AI 代理 Agent Q。Agent Q,一个自监督的代理推理和搜索框架 […]

Genie 一个更像人类工程师的 AI 模型 在编程任务中超越所有的现有AI模型
Genie 一个更像人类工程师的 AI 模型 在编程任务中超越所有的现有AI模型

Cosine发布了一款,专为软件工程设计的AI模型:Genie。Genie在SWE-Bench和SWE-Lit […]

IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息
IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息

IncarnaMind 是一个允许用户通过多种大语言模型(LLM)与个人文档(PDF、TXT)进行互动的工具, […]

OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例
OpenAI 分享了内部员工如何使用 ChatGPT 企业版高效分析数据和发现洞察的实际案例

OpenAI的客户成功经黄金和解决方案工程师举办了一个分享会,分享了员工如何使用 ChatGPT 企业版高效分 […]

SD变现宝:一键把 ComfyUI 工作流转换成各种小程序 并带有支付功能 可直接商业化
SD变现宝:一键把 ComfyUI 工作流转换成各种小程序 并带有支付功能 可直接商业化

ComfyUI_Bxb 是一个插件,可以将 ComfyUI 的工作流一键转换为微信小程序、抖音小程序、微信内H […]

VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合
VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合

在视频中插入手绘动画!传统上这是一项非常困难的任务,但 VideoDoodles 让它成为可能。 VideoD […]

Google 开发出一个能够达到人类业余水平的乒乓球机器人
Google 开发出一个能够达到人类业余水平的乒乓球机器人

谷歌DeepMind的工程师团队开发了一款能够打业余水平乒乓球的机器人。该机器人的核心硬件基于ABB IRB […]

ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸
ReSyncer:一个多功能统一模型 可以实现音视频口型同步、说话风格迁移和换脸

ReSyncer是由清华大学、百度和南洋理工大学 S-Lab 实验室共同开发的一种新型框架,它能够生成非常逼真 […]

Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5
Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

Qwen2 团队推出了一系列专注于数学能力的语言模型:Qwen2-Math,旨在提升推理能力,特别是在解决算术 […]

苹果发布一种新的图像和视频生成方法:“套娃扩散模型” 可同时处理不同分辨率的图像
苹果发布一种新的图像和视频生成方法:“套娃扩散模型” 可同时处理不同分辨率的图像

苹果发布了Matryoshka Diffusion Models (MDM),一种新的图像和视频生成方法,可以 […]

LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你
LSLM:一种新的语音模型 可以在和边你说话的同时继续倾听你说话 实时回复你

LSLM(Listening-while-Speaking Language Model)是由上海交通大学X- […]

Matting by Generation:利用图像生成模型来实现更高质量的图像抠图
Matting by Generation:利用图像生成模型来实现更高质量的图像抠图

“Matting by Generation”是一种新的图像抠图方法,将传统的回归问题转换为生成模型问题,利用 […]

Deep-Live-Cam:实时换脸和一键视频深度伪造工具 只需单张图像即可实现人脸替换
Deep-Live-Cam:实时换脸和一键视频深度伪造工具 只需单张图像即可实现人脸替换

Deep-Live-Cam 是一个实时人脸交换和一键视频深伪工具。它能够利用单张图像对视频或其他图像进行人脸替 […]

教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合
教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

Runway Academy的Gen-3 Alpha提供了一种将真人视频与生成的视觉特效结合的创新方法。通过该 […]

PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大
PDF Guru Anki:一款以PDF为中心的多功能办公学习工具箱 十分强大

PDF Guru Anki 是一款以PDF为中心的多功能办公学习工具箱,支持 win10/11, macOS, […]

MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型
MedSAM-2:基于SAM-2 的能够处理多种2D和3D医学图像的模型

Medical SAM 2 (MedSAM-2),一个基于SAM 2框架的高级分割模型,解决2D和3D医学图像 […]

面壁智能发布其多模态模型MiniCPM-V 2.6  性能越了 GPT-4V 可运行在iPad上
面壁智能发布其多模态模型MiniCPM-V 2.6  性能越了 GPT-4V 可运行在iPad上

面壁智能发布其多模态模型:MiniCPM-V 2.6 MiniCPM-V 2.6是MiniCPM-V系列的最新 […]

麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性
麻省理工大学开发出一种对大模型校准的方法 校准模型输出答案准确性

麻省理工学院和MIT-IBM Watson AI实验室的研究人员开发了一种名为温度计“Thermometer” […]

一款开源的 Claude Artifacts 项目 可通过 Llama 3.1 405B 生成完整的 React 应用程序和组件
一款开源的 Claude Artifacts 项目 可通过 Llama 3.1 405B 生成完整的 React 应用程序和组件

一款开源的 Claude Artifacts 应用程序,可使用 Llama 3.1 405B 生成完整的 Re […]


1 7 8 9 10 11 32