首页 > Ai资讯 > Ai日报
MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像
MistoLine:将手绘的草图直接生成符合草图轮廓的高质量图像

MistoLine是一个基于SDXL-ControlNet的模型,专注于实现对不同类型线稿的灵活适应和高精度图 […]

DeepMind 发布 AlphaFold 3 能够预测所有生命分子结构和相互作用的 AI 模型
DeepMind 发布 AlphaFold 3 能够预测所有生命分子结构和相互作用的 AI 模型

Google DeepMind 发布了 AlphaFold 3 ,一个能够预测所有生命分子结构和相互作用的 A […]

Vidu:发布技术报告 披露技术细节 首个国产媲美Sora的视频生成模型
Vidu:发布技术报告 披露技术细节 首个国产媲美Sora的视频生成模型

近日生数科技与清华大学共同发布了中国首个长时长、高一致性、高动态性视频大模型–Vidu。这款模型被视为国内首个 […]

Neuralink 公布其脑机接口项目进展报告 首位四肢瘫痪者重获自主能力
Neuralink 公布其脑机接口项目进展报告 首位四肢瘫痪者重获自主能力

Neuralink 最近更新了他们 PRIME 脑机接口项目进展报告,在 Phoenix 亚利桑那州的巴罗神经 […]

Krea AI推出一款结合关键帧和文本提示的视频生成工具 Krea Video
Krea AI推出一款结合关键帧和文本提示的视频生成工具 Krea Video

Krea Video是一款用于生成个性化视频的工具,结合了关键帧和文本提示。 它通过关键帧和文本提示生成视频, […]

Stability AI 推出了Stable Artisan 可以在Discord上进行图像生成与编辑
Stability AI 推出了Stable Artisan 可以在Discord上进行图像生成与编辑

Stability AI为了赚钱绞尽了脑汁 ,推出了Stable Artisan ,这是是一款基于Discor […]

ElevenLabs 推出音乐生成模型 ElevenLabs Music 可直接通过文本提示生成完整音乐
ElevenLabs 推出音乐生成模型 ElevenLabs Music 可直接通过文本提示生成完整音乐

ElevenLabs 推出其自己的音乐生成模型 ElevenLabs Music,并展示了早期预览版生成的歌曲 […]

Stylar:最可控的人工智能图像和设计工具 附操作教程
Stylar:最可控的人工智能图像和设计工具 附操作教程

Stylar 为创作者和设计师提供了一套全面的 AI 工具,简化视觉设计流程。Stylar称自己是最可控的人工 […]

Perplexity 与 SoundHound AI 合作 为汽车带来在线智能语音助手
Perplexity 与 SoundHound AI 合作 为汽车带来在线智能语音助手

SndHound AI 和 Perplexity 正合作,将 Perplexity 的在线大语言模型(LLM) […]

将 Gemma 2B 的上下文窗口扩展到 1000万的技术方法
将 Gemma 2B 的上下文窗口扩展到 1000万的技术方法

Gemma-10M 模型使用一种称为 Infini-Attention 的技术,将 Gemma 2B 的上下文 […]

Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能
Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能

Meta AI发表了一篇论文,研究了一种新的训练大型语言模型的方法,即通过预测多个未来标记来提高模型的效率和性 […]

Llama3 中文综合资源库 集合了与Llama3 模型相关的各种中文资料
Llama3 中文综合资源库 集合了与Llama3 模型相关的各种中文资料

Llama3 中文聊天项目综合资源库,集合了与Llama3 模型相关的各种中文资料,包括微调版本、有趣的权重、 […]

AniTalker:一张照片和输入音频生成生动的能说话的面部视频
AniTalker:一张照片和输入音频生成生动的能说话的面部视频

AniTalker通过一个静态的肖像画和输入音频,生成生动多样的说话面部动画视频。该框架不仅仅着重于嘴唇同步这 […]

RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型
RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO 是一个基于人工智能的视觉模型,专门设计用于分析胸部X光图像。它采用了自监督学习方法,它可以在没 […]

Google开发了一种名为TimesFM的时间序列预测模型 可预测未来
Google开发了一种名为TimesFM的时间序列预测模型 可预测未来

TimesFM 是一种用于时间序列预测的先进工具。简单来说,时间序列预测就是基于过去的数据来预测未来事件的发生 […]

FunClip :阿里巴巴开源的一款视频自动化视频剪辑工具
FunClip :阿里巴巴开源的一款视频自动化视频剪辑工具

FunClip 是阿里巴巴通义实验室开源的一款视频剪辑工具,专门用于精准、便捷的视频切片。 它能够自动识别视频 […]

Refuel LLM-2:专门为数据标注、清洗设计的开源语言模型
Refuel LLM-2:专门为数据标注、清洗设计的开源语言模型

Refuel AI 最近推出了两个新版本的大语言模型 RefuelLLM-2 和 RefuelLLM-2-sm […]

宇树科技发布 Unitree G1 人形机器人 售价9.9万元
宇树科技发布 Unitree G1 人形机器人 售价9.9万元

宇树科技发布 Unitree G1 人形机器人,超大关节运动角度,23~34 个关节,结合力位混合控制,灵敏可 […]

VimTS:自动识别图像或视频序中的文本信息并精确提取内容
VimTS:自动识别图像或视频序中的文本信息并精确提取内容

VimTS,一种先进的文本检测工具,专门设计用于同时处理视频和图像中的文本。它通过一种新的方法来提高视频和图像 […]

RAFT: 可以显著提升提高LLMs在RAG方面的能力的方法
RAFT: 可以显著提升提高LLMs在RAG方面的能力的方法

RAFT(Retrieval Augmented Fine-tuning)是一种新的技术方法,用于改善大语言模 […]

OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界
OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界

OpenAI 刚刚发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能 […]

腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像
腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

混元DiT是腾讯推出的一款先进的文本到图像生成模型,它基于扩散变换器(Diffusion Transforme […]

Google在其搜索中集成先进的 Gemini 模型 更新一些列功能
Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

Google 在其 2024 年 Google I/O 大会上发布的搜索中引入生成式 AI 的新功能。这些功能 […]

Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务
Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma […]

苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等
苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等

苹果公司今天宣布将于今年晚些时候推出新的辅助功能,其中包括眼动追踪(Eye Tracking)、音乐触感(Mu […]

UMI:斯坦福开发的一个机器人数据收集和策略学习框架
UMI:斯坦福开发的一个机器人数据收集和策略学习框架

通过手持式夹持器和精心设计的接口进行数据收集。 UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人 […]

ReCap:能够自动分析2个小时长的视频,并生成准确描述
ReCap:能够自动分析2个小时长的视频,并生成准确描述

ReCap是一个创新的递归式视频字幕模型,能够自动分析视频内容,并在不同的时间层级上(如短片段、中等长度段落和 […]

Genie:通过一张图像提示,生成一个完整的游戏交互式环境
Genie:通过一张图像提示,生成一个完整的游戏交互式环境

Genie能够从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景。 这些图像可以是合成图像、真实照片, […]

OpenCodeInterpreter:能够执行代码的代码解释器
OpenCodeInterpreter:能够执行代码的代码解释器

OpenCodeInterpreter与之前的代码解释器不同的是,它不仅可以生成代码,还能根据人类的反馈学习如 […]

STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容
STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容

STORM(Synthesis of Topic Outlines through Retrieval and […]


1 15 16 17 18 19 29