Ai日报 - 第 20 页 - 智汇宝库

首页 > Ai资讯 > Ai日报

Perplexity 与 SoundHound AI 合作为汽车带来在线智能语音助手

Perplexity 与 SoundHound AI 合作为汽车带来在线智能语音助手

SndHound AI 和 Perplexity 正合作，将 Perplexity 的在线大语言模型（LLM） […]

将 Gemma 2B 的上下文窗口扩展到 1000万的技术方法

将 Gemma 2B 的上下文窗口扩展到 1000万的技术方法

Gemma-10M 模型使用一种称为 Infini-Attention 的技术，将 Gemma 2B 的上下文 […]

Meta AI最新研究：通过同时预测多个未来标记提升模型推理速度和性能

Meta AI最新研究：通过同时预测多个未来标记提升模型推理速度和性能

Meta AI发表了一篇论文，研究了一种新的训练大型语言模型的方法，即通过预测多个未来标记来提高模型的效率和性 […]

Llama3 中文综合资源库集合了与Llama3 模型相关的各种中文资料

Llama3 中文综合资源库集合了与Llama3 模型相关的各种中文资料

Llama3 中文聊天项目综合资源库，集合了与Llama3 模型相关的各种中文资料，包括微调版本、有趣的权重、 […]

AniTalker：一张照片和输入音频生成生动的能说话的面部视频

AniTalker：一张照片和输入音频生成生动的能说话的面部视频

AniTalker通过一个静态的肖像画和输入音频，生成生动多样的说话面部动画视频。该框架不仅仅着重于嘴唇同步这 […]

RayDINO ：能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO ：能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO 是一个基于人工智能的视觉模型，专门设计用于分析胸部X光图像。它采用了自监督学习方法，它可以在没 […]

Google开发了一种名为TimesFM的时间序列预测模型可预测未来

Google开发了一种名为TimesFM的时间序列预测模型可预测未来

TimesFM 是一种用于时间序列预测的先进工具。简单来说，时间序列预测就是基于过去的数据来预测未来事件的发生 […]

FunClip ：阿里巴巴开源的一款视频自动化视频剪辑工具

FunClip ：阿里巴巴开源的一款视频自动化视频剪辑工具

FunClip 是阿里巴巴通义实验室开源的一款视频剪辑工具，专门用于精准、便捷的视频切片。它能够自动识别视频 […]

Refuel LLM-2：专门为数据标注、清洗设计的开源语言模型

Refuel LLM-2：专门为数据标注、清洗设计的开源语言模型

Refuel AI 最近推出了两个新版本的大语言模型 RefuelLLM-2 和 RefuelLLM-2-sm […]

宇树科技发布 Unitree G1 人形机器人售价9.9万元

宇树科技发布 Unitree G1 人形机器人售价9.9万元

宇树科技发布 Unitree G1 人形机器人，超大关节运动角度，23~34 个关节，结合力位混合控制，灵敏可 […]

VimTS：自动识别图像或视频序中的文本信息并精确提取内容

VimTS：自动识别图像或视频序中的文本信息并精确提取内容

VimTS，一种先进的文本检测工具，专门设计用于同时处理视频和图像中的文本。它通过一种新的方法来提高视频和图像 […]

RAFT：可以显著提升提高LLMs在RAG方面的能力的方法

RAFT：可以显著提升提高LLMs在RAG方面的能力的方法

RAFT（Retrieval Augmented Fine-tuning）是一种新的技术方法，用于改善大语言模 […]

OpenAI 发布 GPT-4o全能模型实时语音和视觉能力再次刷新业界

OpenAI 发布 GPT-4o全能模型实时语音和视觉能力再次刷新业界

OpenAI 刚刚发布了 GPT-4o，这是一种新的人工智能模式，集合了文本、图片、视频、语音的全能模型。能 […]

腾讯混元DiT模型支持中英双语生成高分辨率、高质量的图像

腾讯混元DiT模型支持中英双语生成高分辨率、高质量的图像

混元DiT是腾讯推出的一款先进的文本到图像生成模型，它基于扩散变换器（Diffusion Transforme […]

Google在其搜索中集成先进的 Gemini 模型更新一些列功能

Google在其搜索中集成先进的 Gemini 模型更新一些列功能

Google 在其 2024 年 Google I/O 大会上发布的搜索中引入生成式 AI 的新功能。这些功能 […]

Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型（VLM），受PaLI-3启发，基于SigLIP视觉模型和Gemma […]

苹果宣布一些列新的辅助功能，包括眼动追踪、语音快捷方式等

苹果宣布一些列新的辅助功能，包括眼动追踪、语音快捷方式等

苹果公司今天宣布将于今年晚些时候推出新的辅助功能，其中包括眼动追踪（Eye Tracking）、音乐触感（Mu […]

UMI：斯坦福开发的一个机器人数据收集和策略学习框架

UMI：斯坦福开发的一个机器人数据收集和策略学习框架

通过手持式夹持器和精心设计的接口进行数据收集。 UMI可以将人类在复杂环境下的操作技能直接转移给机器人，无需人 […]

ReCap：能够自动分析2个小时长的视频，并生成准确描述

ReCap：能够自动分析2个小时长的视频，并生成准确描述

ReCap是一个创新的递归式视频字幕模型，能够自动分析视频内容，并在不同的时间层级上（如短片段、中等长度段落和 […]

Genie：通过一张图像提示，生成一个完整的游戏交互式环境

Genie：通过一张图像提示，生成一个完整的游戏交互式环境

Genie能够从单一图像提示生成无限种可玩（即可通过行动控制的）游戏场景。这些图像可以是合成图像、真实照片， […]

OpenCodeInterpreter：能够执行代码的代码解释器

OpenCodeInterpreter：能够执行代码的代码解释器

OpenCodeInterpreter与之前的代码解释器不同的是，它不仅可以生成代码，还能根据人类的反馈学习如 […]

STORM：利用LLMs自动化生成像维基百科一样的深度长篇内容

STORM：利用LLMs自动化生成像维基百科一样的深度长篇内容

STORM（Synthesis of Topic Outlines through Retrieval and […]

MeloTTS：支持中英混合发音的多语言文本到语音（TTS）库

MeloTTS：支持中英混合发音的多语言文本到语音（TTS）库

MeloTTS是MyShell.ai开发的一个高质量的多语言文本到语音（TTS）库。它支持英语、西班牙语、法语 […]

Stickerbaker：一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

Stickerbaker：一个开源的「贴纸生成器」几秒钟生成一个精美的贴纸

一个开源的「贴纸生成器」输入文字提示，即可在几秒钟生成一个精美的贴纸 Support authors and […]

MobiLlama：一个0.5B大小能在手机上运行的小型语言模型

MobiLlama：一个0.5B大小能在手机上运行的小型语言模型

MobiLlama：一个0.5B大小能在手机上运行的小型语言模型该模型基于LLaMA-7B架构设计，旨 […]

ChatMusician: 能够理解和生成音乐的大语言模型

ChatMusician: 能够理解和生成音乐的大语言模型

通过根据给定的文本提示、和弦序列、旋律线索、音乐主题或形式等条件。 ChatMusician能自动生成结构 […]

EMO：一张照片+音频即可生成会说话唱歌的视频

EMO：一张照片+音频即可生成会说话唱歌的视频

该项目由阿里巴巴开发，利用单张图像和音频输入（如说话或唱歌），EMO能够生成具有表情变化和头部动态的虚拟人像视 […]

AutoPrompt ：自动优化你的提示词

AutoPrompt ：自动优化你的提示词

AutoPrompt 是一个专为优化提示而设计的框架，目的是改善和完善在真实世界应用场景中使用的提示。这个框架 […]

StarCoder2：专为编程代码生成和分析而设计开源模型

StarCoder2：专为编程代码生成和分析而设计开源模型

StarCoder2拥有三种不同规模的模型，参数量分别为3B、7B和15B。特别地，15B参数的StarCod […]

LTX Studio：一个由AI驱动的一键生成电影的制作平台

LTX Studio：一个由AI驱动的一键生成电影的制作平台

LTX Studio是一个创新的平台，通过整合人工智能技术与视频制作过程，为创意人士提供了从概念构思到最终编辑 […]

1 … 18 19 20 21 22 … 32