首页 > Ai资讯 > Ai日报
VimTS:自动识别图像或视频序中的文本信息并精确提取内容
VimTS:自动识别图像或视频序中的文本信息并精确提取内容

VimTS,一种先进的文本检测工具,专门设计用于同时处理视频和图像中的文本。它通过一种新的方法来提高视频和图像 […]

RAFT: 可以显著提升提高LLMs在RAG方面的能力的方法
RAFT: 可以显著提升提高LLMs在RAG方面的能力的方法

RAFT(Retrieval Augmented Fine-tuning)是一种新的技术方法,用于改善大语言模 […]

OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界
OpenAI 发布 GPT-4o全能模型 实时语音和视觉能力 再次刷新业界

OpenAI 刚刚发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。 能 […]

腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像
腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

混元DiT是腾讯推出的一款先进的文本到图像生成模型,它基于扩散变换器(Diffusion Transforme […]

Google在其搜索中集成先进的 Gemini 模型 更新一些列功能
Google在其搜索中集成先进的 Gemini 模型 更新一些列功能

Google 在其 2024 年 Google I/O 大会上发布的搜索中引入生成式 AI 的新功能。这些功能 […]

Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务
Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma […]

苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等
苹果宣布一些列新的辅助功能,包括眼动追踪、语音快捷方式等

苹果公司今天宣布将于今年晚些时候推出新的辅助功能,其中包括眼动追踪(Eye Tracking)、音乐触感(Mu […]

UMI:斯坦福开发的一个机器人数据收集和策略学习框架
UMI:斯坦福开发的一个机器人数据收集和策略学习框架

通过手持式夹持器和精心设计的接口进行数据收集。 UMI可以将人类在复杂环境下的操作技能直接转移给机器人,无需人 […]

ReCap:能够自动分析2个小时长的视频,并生成准确描述
ReCap:能够自动分析2个小时长的视频,并生成准确描述

ReCap是一个创新的递归式视频字幕模型,能够自动分析视频内容,并在不同的时间层级上(如短片段、中等长度段落和 […]

Genie:通过一张图像提示,生成一个完整的游戏交互式环境
Genie:通过一张图像提示,生成一个完整的游戏交互式环境

Genie能够从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景。 这些图像可以是合成图像、真实照片, […]

OpenCodeInterpreter:能够执行代码的代码解释器
OpenCodeInterpreter:能够执行代码的代码解释器

OpenCodeInterpreter与之前的代码解释器不同的是,它不仅可以生成代码,还能根据人类的反馈学习如 […]

STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容
STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容

STORM(Synthesis of Topic Outlines through Retrieval and […]

MeloTTS:支持中英混合发音 的多语言文本到语音(TTS)库
MeloTTS:支持中英混合发音 的多语言文本到语音(TTS)库

MeloTTS是MyShell.ai开发的一个高质量的多语言文本到语音(TTS)库。它支持英语、西班牙语、法语 […]

Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸
Stickerbaker:一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

一个开源的「贴纸生成器」 输入文字提示,即可在几秒钟生成一个精美的贴纸 Support authors and […]

MobiLlama:一个0.5B大小 能在手机上运行的小型语言模型
MobiLlama:一个0.5B大小 能在手机上运行的小型语言模型

MobiLlama:一个0.5B大小 能在手机上运行的小型语言模型   该模型基于LLaMA-7B架构设计,旨 […]

ChatMusician: 能够理解和生成音乐的大语言模型
ChatMusician: 能够理解和生成音乐的大语言模型

通过根据给定的文本提示、和弦序列、旋律线索、音乐主题或形式等条件。   ChatMusician能自动生成结构 […]

EMO:一张照片+音频即可生成会说话唱歌的视频
EMO:一张照片+音频即可生成会说话唱歌的视频

该项目由阿里巴巴开发,利用单张图像和音频输入(如说话或唱歌),EMO能够生成具有表情变化和头部动态的虚拟人像视 […]

AutoPrompt :自动优化你的提示词
AutoPrompt :自动优化你的提示词

AutoPrompt 是一个专为优化提示而设计的框架,目的是改善和完善在真实世界应用场景中使用的提示。这个框架 […]

StarCoder2:专为编程代码生成和分析而设计开源模型
StarCoder2:专为编程代码生成和分析而设计开源模型

StarCoder2拥有三种不同规模的模型,参数量分别为3B、7B和15B。特别地,15B参数的StarCod […]

LTX Studio:一个由AI驱动的一键生成电影的制作平台
LTX Studio:一个由AI驱动的一键生成电影的制作平台

LTX Studio是一个创新的平台,通过整合人工智能技术与视频制作过程,为创意人士提供了从概念构思到最终编辑 […]

Morph Studio:将Stability AI生成的视频片段编织成一部电影
Morph Studio:将Stability AI生成的视频片段编织成一部电影

Morph Studio最近引入了一个创新的工具,允许用户将Stability AI生成的视频片段编织成一部电 […]

Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天
Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天

Chat-With-MLX是利用苹果MLX Framework实现的一个高效、多语言支持进行检索增强生成(RA […]

Concordia :让AI代理能够以更接近人类的方式行动和交流
Concordia :让AI代理能够以更接近人类的方式行动和交流

Concordia是由Google DeepMind开发的一个创新性工具   它利用大语言模型可以构建和模拟具 […]

Sailor:是一套为东南亚国家量身定制的语言模型
Sailor:是一套为东南亚国家量身定制的语言模型

由于东南亚(SEA)地区语言多种多样,大多数现有的模型无法满足该地区需求。   Sailor基于Qwen 1. […]

OpenAI音乐生成模型Jukebox曝光 效果惊艳
OpenAI音乐生成模型Jukebox曝光 效果惊艳

兄弟们,你猜我发现了什么   原来OpenAI 3年前就开始搞AI音乐生成了   OpenAI在2019年8月 […]

OLMo:真正的完全开源大模型
OLMo:真正的完全开源大模型

OLMo(Open Language Model)与其他开源语言模型的不同之处在于其“完全开放的框架”。   […]

Multi-LoRA:动态集成多个LoRAs 来精确控制图像的生成过程
Multi-LoRA:动态集成多个LoRAs 来精确控制图像的生成过程

在文本到图像生成的领域中,精确渲染特定元素(如独特字符或风格)是一大挑战。现有的方法在有效组合多个低秩适应(L […]

OpenReplay:像看电影一样回看用户如何与你的产品互动
OpenReplay:像看电影一样回看用户如何与你的产品互动

OpenReplay:用户操作记录回放   OpenReplay是一个自托管的会话回放和分析的开源工具,可以让 […]

Easy Scraper:只需点击一下即可抓取任何网站的内容
Easy Scraper:只需点击一下即可抓取任何网站的内容

Easy Scraper 是一个在Chrome 免费网页抓取扩展,只需一次点击从任何网站抓取数据。使得数据抓取 […]

Screenshot to Code:将网页屏幕截图直接转换为干净的代码
Screenshot to Code:将网页屏幕截图直接转换为干净的代码

它可以将屏幕截图转换为干净的代码,支持HTML/Tailwind CSS、React、Bootstrap或Vu […]


1 18 19 20 21 22 31