首页 > Ai资讯 > Ai日报
Stable Diffusion 3论文:一种新的多模态扩散变换器(MMDiT)架构
Stable Diffusion 3论文:一种新的多模态扩散变换器(MMDiT)架构

Stability AI发布了关于Stable Diffusion 3(SD3)的研究论文,揭示了这一最新模型 […]

PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配
PixelPlayer:自动从视频中识别和分离声音源,并与画面匹配

PixelPlayer:MIT的研究团队开发的项目,能自动从视频中识别和分离出不同的声音源,并与画面位置匹配。 […]

DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型
DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

该项目由字节跳动开发,DiffusionGPT的牛P之处在于它集成了多种领域的专家图像生成模型。 然后使用LL […]

Pika Lip Sync: 唇型同步功能向所有人开放
Pika Lip Sync: 唇型同步功能向所有人开放

Pika近日宣布推出新功能Lip Sync,此功能允许用户为视频添加语音对白,并通过ElevenLabs支持实 […]

SAMPLE:自动化蛋白质设计系统 自己设计和测试新的蛋白质
SAMPLE:自动化蛋白质设计系统 自己设计和测试新的蛋白质

SAMPLE可以自己设计和测试新的蛋白质,而不需要人类的帮助。就像一个能自己做实验的机器人科学家。 它能自主学 […]

STRUCT CHEM:提高大语言模型解决复杂化学问题的能力
STRUCT CHEM:提高大语言模型解决复杂化学问题的能力

STRUCT CHEM是为了解决大语言模型(LLMs)在复杂化学问题推理中遇到的挑战而设计的一种策略。虽然LL […]

AtomoVideo:高保真图像到视频生成 符合真实世界运动状态
AtomoVideo:高保真图像到视频生成 符合真实世界运动状态

AtomoVideo是一个创新的高保真图像到视频生成框架,由阿里巴巴团队开发。这个框架能够从给定的静态图像生成 […]

Marker :快速准确地将各种文件转换为 Markdown 格式
Marker :快速准确地将各种文件转换为 Markdown 格式

Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nou […]

2023-12-21 18:02:32 Twitter
2023-12-21 18:02:32 Twitter

ChatGPT插件将废弃⚠️ OpenAI将引导开发者将ChatGPT插件迁移到GPTs… Support a […]

InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节
InstanceDiffusion:允许用户以前所未有的精度控制图片中每个细节

InstanceDiffusion是一个由BAIR, UC Berkeley和GenAI, Meta共同开发的 […]

由人类细胞构成 能够自我移动具有自组装能力的微小活体机器人
由人类细胞构成 能够自我移动具有自组装能力的微小活体机器人

塔夫茨大学和哈佛大学维斯研究所团队开发出一种能够在实验室培养皿中移动的微小活体机器人。 他们将这些创造物称为“ […]

Design2Code:利用大语言模型将视觉设计自动转换为前端代码
Design2Code:利用大语言模型将视觉设计自动转换为前端代码

Design2Code项目探索了利用生成式人工智能,特别是多模态大语言模型(LLMs),将视觉设计自动转换为前 […]

01.AI发布新一代开源模型:Yi-9B 专为中英双语场景优化
01.AI发布新一代开源模型:Yi-9B 专为中英双语场景优化

01.AI发布新一代开源大语言模型:Yi-9B,特别针对双语(中英文)场景进行训练,拥有强大的语言理解、常识推 […]

ResAdapter:一致性分辨率适配器 可以生成任意分辨率和纵横比的图像
ResAdapter:一致性分辨率适配器 可以生成任意分辨率和纵横比的图像

ResAdapter是一个由字节跳动开发的领域一致性分辨率适配器,它能让扩散模型、生成不同分辨率和比例的图像, […]

如何使用Midjourney v6 创建自己的服装品牌
如何使用Midjourney v6 创建自己的服装品牌

如何使用Midjourney v6 创建自己的服装品牌 博主Hugo Ventura分享了他使用Midjour […]

更改图像风格但保持角色和姿势一致的简单方法
更改图像风格但保持角色和姿势一致的简单方法

Chase Lean @chaseleantj 在X上分享了一种简单的方法,用于改变图像的风格同时保持角色和姿 […]

MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解
MovieLLM: 用AI合成电影数据 用来训练AI对长视频理解

MovieLLM 是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架,能够从简单的文本提示中生成高质量、 […]

SaulLM-7B:一款专为法律领域定制的大语言模型
SaulLM-7B:一款专为法律领域定制的大语言模型

SaulLM-7B,这是一款专为法律领域定制的大语言模型(LLM)。拥有70亿参数,SaulLM-7B是首个专 […]

Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定
Figma推出Multi-edit功能:让设计更简单,批量编辑轻松搞定

Figma推出一个强大的功能——多重编辑(Multi-edit),这项功能极大地简化了在Figma中跨多个框架 […]

RT-H:让机器人学会根据人类语言描述执行任务
RT-H:让机器人学会根据人类语言描述执行任务

RT-H是一个利用视觉语言模型(VLM)通过语言来预测动作层次结构的模型,由Google DeepMind的研 […]

Optimizer AI:专为视频自动生成音效的AI工具 可为视频自动配音
Optimizer AI:专为视频自动生成音效的AI工具 可为视频自动配音

OptimizerAI是一个AI声音效果生成器,专注于为创作者、游戏制作者、艺术家和视频制作者生成声音效果的平 […]

传奇芯片架构师领导的公司Tenstorrent 推出了Grayskull 替代传统GPU
传奇芯片架构师领导的公司Tenstorrent 推出了Grayskull 替代传统GPU

由传奇芯片架构师吉姆·凯勒(Jim Keller)领导的公司Tenstorrent,发布了其首款硬件产品Gra […]

The Pile: 用于语言模型的800GB多样化文本数据集
The Pile: 用于语言模型的800GB多样化文本数据集

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集,它由22个较 […]

Magi: 自动将漫画转录成文字 并自动生成剧本
Magi: 自动将漫画转录成文字 并自动生成剧本

Magi模型,由牛津大学工程科学系的视觉几何组开发。这项研究的核心目标是通过人工智能技术自动为漫画生成文字剧本 […]

Cradle:仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》
Cradle:仅靠屏幕图像输入 AI模仿人类玩《荒野大镖客2》

Cradle,一个具有强大推理能力的代理框架,旨在探索通用计算机控制领域,以《荒野大镖客2》(Red Dead […]

AIwechat-Vercel:无需服务器 无需备案 将GPT接入微信公众号
AIwechat-Vercel:无需服务器 无需备案 将GPT接入微信公众号

AIwechat-Vercel利用 Vercel 的 Serverless Functions 提供后端服务, […]

2024年哈佛大学CS50x计算机科学课程详解
2024年哈佛大学CS50x计算机科学课程详解

哈佛大学CS50x 2024课程 CS50简介: 这是哈佛大学的一门计算机科学和编程入门课程,适合专业学生和非 […]

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同开发的一个基于Diffusion […]

Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音
Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

Pika平台发布了一项新功能,允许用户为视频无缝生成和集成音效,用户可以指定想要的声音或让平台根据视频内容自动 […]

WhiteRabbitNeo:网络安全领域专用模型 可识别安全威胁和漏洞
WhiteRabbitNeo:网络安全领域专用模型 可识别安全威胁和漏洞

WhiteRabbitNeo发布WhiteRabbitNeo-7B-v1.5a 模型,该模型属于文本生成领域, […]


1 17 18 19 20 21 29