首页 > Ai资讯 > Ai日报
MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解
MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解

MovieLLM 是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架,能够从简单的文本提示中生成高质量、 […]

SaulLM-7B:一款专为法律领域定制的大语言模型
SaulLM-7B:一款专为法律领域定制的大语言模型

SaulLM-7B,这是一款专为法律领域定制的大语言模型(LLM)。拥有70亿参数,SaulLM-7B是首个专 […]

Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定
Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定

Figma推出一个强大的功能——多重编辑(Multi-edit),这项功能极大地简化了在Figma中跨多个框架 […]

RT-H:让机器人学会根据人类语言描述执行任务
RT-H:让机器人学会根据人类语言描述执行任务

RT-H是一个利用视觉语言模型(VLM)通过语言来预测动作层次结构的模型,由Google DeepMind的研 […]

Optimizer AI:专为视频自动生成音效的AI工具 可为视频自动配音
Optimizer AI:专为视频自动生成音效的AI工具 可为视频自动配音

OptimizerAI是一个AI声音效果生成器,专注于为创作者、游戏制作者、艺术家和视频制作者生成声音效果的平 […]

传奇芯片架构师领导的公司Tenstorrent 推出了Grayskull 替代传统GPU
传奇芯片架构师领导的公司Tenstorrent 推出了Grayskull 替代传统GPU

由传奇芯片架构师吉姆·凯勒(Jim Keller)领导的公司Tenstorrent,发布了其首款硬件产品Gra […]

Cradle:仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》
Cradle:仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》

Cradle,一个具有强大推理能力的代理框架,旨在探索通用计算机控制领域,以《荒野大镖客2》(Red Dead […]

AIwechat-Vercel:无需服务器 无需备案 将GPT接入微信公众号
AIwechat-Vercel:无需服务器 无需备案 将GPT接入微信公众号

AIwechat-Vercel利用 Vercel 的 Serverless Functions 提供后端服务, […]

2024年哈佛大学CS50x计算机科学课程详解
2024年哈佛大学CS50x计算机科学课程详解

哈佛大学CS50x 2024课程 CS50简介: 这是哈佛大学的一门计算机科学和编程入门课程,适合专业学生和非 […]

The Pile: 用于语言模型的800GB多样化文本数据集
The Pile: 用于语言模型的800GB多样化文本数据集

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集,它由22个较 […]

Magi: 自动将漫画转录成文字 并自动生成剧本
Magi: 自动将漫画转录成文字 并自动生成剧本

Magi模型,由牛津大学工程科学系的视觉几何组开发。这项研究的核心目标是通过人工智能技术自动为漫画生成文字剧本 […]

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同开发的一个基于Diffusion […]

Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音
Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

Pika平台发布了一项新功能,允许用户为视频无缝生成和集成音效,用户可以指定想要的声音或让平台根据视频内容自动 […]

WhiteRabbitNeo:网络安全领域专用模型 可识别安全威胁和漏洞
WhiteRabbitNeo:网络安全领域专用模型 可识别安全威胁和漏洞

WhiteRabbitNeo发布WhiteRabbitNeo-7B-v1.5a 模型,该模型属于文本生成领域, […]

Google Shopping API :抓取商品详情、评论、规格、优惠信息等
Google Shopping API :抓取商品详情、评论、规格、优惠信息等

Google Shopping API 由 SearchApi 提供,是一个强大的工具,旨在帮助开发者和研究者 […]

OpenAI Sora团队三巨头做客Marques Brownlee播客
OpenAI Sora团队三巨头做客Marques Brownlee播客

主要内容导览: Support authors and subscribe to content This i […]

MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合
MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合

MeloTTS是由MyShell.ai开发的一款高质量、支持多语言的文本转语音(TTS)库。该库支持英语(美式 […]

H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人
H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

Human to Humanoid (H2O)由卡内基梅隆大学的研究团队开发,它允许人们通过一个简单的RGB摄 […]

一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了
一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了

Answer.AI发布了一个基于FSDP(Fully Sharded Data Parallel,完全分片数据 […]

SST:对情感的高维度理解和映射 让机器更真实地模拟人类情感
SST:对情感的高维度理解和映射 让机器更真实地模拟人类情感

Hume AI的博客文章《什么是语义空间理论?》介绍了一个先进的理解情感的方法:语义空间理论(SST)。这种方 […]

SLD:图像生成模型自动校正技术 能编辑和修复各类模型生成的图像
SLD:图像生成模型自动校正技术 能编辑和修复各类模型生成的图像

SLD是一种自我纠正的LLM控制扩散框架,它通过结合大型语言模型的检测能力,使图像生成模型能够更加精准地根据文 […]

Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备
Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

Whomane是一款价格便宜且方便组装的开源可穿戴设备,只需几分钟即可完成组装。它只有四个组件:相机、按钮、电 […]

加拿大国防部和加拿大武装部队发布人工智能战略 加速AI战斗部署
加拿大国防部和加拿大武装部队发布人工智能战略 加速AI战斗部署

加拿大国防部和加拿大武装部队发布了一个人工智能(AI)战略,目标是到2030年,利用AI技术改善他们的工作和操 […]

Inflection AI发布Inflection-2.5模型 只用四成功力就匹敌GPT 4
Inflection AI发布Inflection-2.5模型 只用四成功力就匹敌GPT 4

Inflection AI发布Inflection-2.5版本模型 只用了四成功力就匹敌GPT 4性能,具有高 […]

Google发布Gemini 1.5 Pro 技术报告:为多模态混合专家模型
Google发布Gemini 1.5 Pro 技术报告:为多模态混合专家模型

Gemini 1.5 Pro 是由 Google Gemini 团队开发的一款多模态混合专家模型,它标志着人工 […]

ELLA:使用LLM来增强扩散模型的语义对齐
ELLA:使用LLM来增强扩散模型的语义对齐

ELLA(Efficient Large Language Model Adapter)是由腾讯开发的一个先进 […]

Paper Piano 纸钢琴:通过摄像头将任何一张纸变成一架钢琴
Paper Piano 纸钢琴:通过摄像头将任何一张纸变成一架钢琴

Paper Piano,通过摄像头捕捉手指的运动,在纸张上实现弹钢琴的功能,让人们无需购买真正的钢琴即可演奏音 […]

Midjourney 角色人物一致性功能上线 复杂文本理解能力提升
Midjourney 角色人物一致性功能上线 复杂文本理解能力提升

Midjourney 角色人物一致性功能上线 适用于 MJ6 和 Niji6 型号 Support autho […]

Google发明了一种新型的模型窃取攻击方法 成功攻破ChatGPT
Google发明了一种新型的模型窃取攻击方法 成功攻破ChatGPT

Google发表了一篇论文,介绍了一种新型的模型窃取攻击方法,这种方法能够从像OpenAI的ChatGPT或G […]

YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象
YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象

YOLOv8:目标检测跟踪模型 YOLOv8能够在图像或视频帧中快速准确地识别和定位多个对象,还能跟踪它们的移 […]


1 20 21 22 23 24 31