首页 > Ai资讯 > Ai日报
Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型
Mini-Omni 支持“边思考边说话” 具备端到端的实时语音输入和输出能力模型

Mini-Omni是一种多模态大型语言模型,具备端到端的实时语音输入和输出能力。与传统依赖于文本转语音(TTS […]

Roblox 展示了新的 3D AI 工具 实现与游戏玩法直接集成的实时世界构建
Roblox 展示了新的 3D AI 工具 实现与游戏玩法直接集成的实时世界构建

在 2024年Roblox开发者大会(RDC) 上,首席执行官 David Baszucki 宣布了 Robl […]

Replit 发布Replit  Agent AI应用开发助手 0基础编程用户也能开发程序
Replit 发布Replit  Agent AI应用开发助手 0基础编程用户也能开发程序

Replit 发布了一款实验性产品:Replit  Agent ,旨在帮助用户从零开始构建软件项目。它通过理解 […]

Reflection Llama-3.1-70B 模型 可以在推理过程中发现自己的错误并进行自我修正
Reflection Llama-3.1-70B 模型 可以在推理过程中发现自己的错误并进行自我修正

全球最强的开源模型:Reflection 70B。它使用了一种名为“Reflection-Tuning 反思调 […]

DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质
DeepMind 新的生物人工智能系统 AlphaProteo:专门设计能够与特定靶标分子结合的蛋白质

DeepMind 发布了一个新的生物人工智能系统,专门设计能够与特定靶标分子结合的蛋白质。这些蛋白质可以与特定 […]

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来
面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

MiniCPM3-4B 是 MiniCPM 开发的最新一代边缘端语言模型,其整体性能优于 Phi-3.5-mi […]

科学家研究出一种新方法 只需涂抹特殊溶液 就能使活体动物的组织变得透明
科学家研究出一种新方法 只需涂抹特殊溶液 就能使活体动物的组织变得透明

科学家研究出一种新方法,能够使活体动物的组织暂时变得透明,以便于更好地进行光学成像。这对于医学和生物研究非常有 […]

Loopy:通过音频驱动静态照片生成动态视频 并能生成自然动作,表情变化、头部移动等
Loopy:通过音频驱动静态照片生成动态视频 并能生成自然动作,表情变化、头部移动等

传统的音频驱动肖像动画生成方法通常需要手动设定运动模板,这在生成动态肖像时可能限制其灵活性和自然性。Loopy […]

RapidLayoutRecover:将文档类图像还原成可编辑的文本格式 同时保持版面布局
RapidLayoutRecover:将文档类图像还原成可编辑的文本格式 同时保持版面布局

RapidLayoutRecover 是一个针对文档类图像的版面还原工具。该项目通过整合版面分析、文字识别(O […]

Anthropic 推出 企业版Claude 500K上下文 可以将 GitHub 仓库与 Claude 集成
Anthropic 推出 企业版Claude 500K上下文 可以将 GitHub 仓库与 Claude 集成

Anthropic 推出了 Claude Enterprise 计划,帮助企业安全地将内部知识与 Claude […]

ComfyUI-AdvancedLivePortrait:从静态照片中提取面部表情 并进行自由编辑调整 让图像动起来
ComfyUI-AdvancedLivePortrait:从静态照片中提取面部表情 并进行自由编辑调整 让图像动起来

ComfyUI-AdvancedLivePortrait 可以利用面部跟踪和表情编辑技术制作动画视频。它可以从 […]

ReFlux:一次使用多个微调的 FLUX.1 模型在一个无限大的画布上生成图像
ReFlux:一次使用多个微调的 FLUX.1 模型在一个无限大的画布上生成图像

Replicate 团队正在试验一种新方法,帮助用户更方便地探索和使用他们平台上的图像生成模型。他们开发了一个 […]

Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升
Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升

Cohere 公司发布了最新版本的 Command R 和 Command R+ 模型,这些企业级 AI 模型 […]

DisTrO:用你的家用电脑完成的去中心化人工智能训练
DisTrO:用你的家用电脑完成的去中心化人工智能训练

Nous Research 最近推出了DisTrO(Distributed Training Over-the […]

教程:成本不到2美金 使用你自己的照片 训练 一个自己的 FLUX LoRA
教程:成本不到2美金 使用你自己的照片 训练 一个自己的 FLUX LoRA

步骤 1:准备图片 收集照片:准备10到20张你的自拍或照片,这些照片应展示不同的姿势和背景。 命名规则:为了 […]

微软发布 AutoGen Studio:一个无需编写代码即快速构建和设计多代理的系统
微软发布 AutoGen Studio:一个无需编写代码即快速构建和设计多代理的系统

AutoGen Studio 是微软研究院开发的一款低代码工具,旨在帮助开发者快速原型设计、调试和评估由多个人 […]

FLUX.1-dev-LoRA:一个混合现实与插画风格模型 可以生成融合了现实与插画元素的图像
FLUX.1-dev-LoRA:一个混合现实与插画风格模型 可以生成融合了现实与插画元素的图像

FLUX.1-dev-LoRA是一个混合现实与插画风格模型。该模型可以生成融合了现实与插画元素的图像。它基于F […]

成立两年首次亮相就放王炸 MiniMax发布三款模型 语音模型、音乐模型和类似Sora视频模型
成立两年首次亮相就放王炸 MiniMax发布三款模型 语音模型、音乐模型和类似Sora视频模型

成立两年半的 MiniMax 一直悄无声息的,低调前行。但在刚刚结束的MiniMax Link伙伴日上Mini […]

Jina AI发布 Jina ColBERT v2: 一个多语言的晚期交互信息检索模型
Jina AI发布 Jina ColBERT v2: 一个多语言的晚期交互信息检索模型

Jina AI发布 Jina ColBERT v2版本, Jina ColBERT v2是一个多语言的晚期交互 […]

HivisionIDPhotos :轻量级且高效的AI证件照制作工具 可以生成各种标准证件照
HivisionIDPhotos :轻量级且高效的AI证件照制作工具 可以生成各种标准证件照

HivisionIDPhotos 是一个轻量级且高效的AI证件照制作工具,旨在为用户提供便捷的证件照生成方案。 […]

Kotaemon:一个开源、干净且可定制的 RAG UI 可以于与你的文档聊天
Kotaemon:一个开源、干净且可定制的 RAG UI 可以于与你的文档聊天

Kotaemon 是一个基于检索增强生成(RAG)的开源工具,旨在实现与文档对话的功能。该工具为最终用户和开发 […]

EZ-Work:一个开源的AI文档翻译助手 支持多种文档格式的翻译
EZ-Work:一个开源的AI文档翻译助手 支持多种文档格式的翻译

EZ-Work 是一个开源的AI文档翻译助手,设计目的是帮助用户快速、低成本地利用OpenAI等大语言模型AP […]

阿里云发布Qwen2-VL 最新视觉语言模型 能够理解长达20分钟以上的视频内容
阿里云发布Qwen2-VL 最新视觉语言模型 能够理解长达20分钟以上的视频内容

阿里云发布Qwen2-VL 最新视觉语言模型版本,较其前代Qwen-VL有显著提升。 Qwen2-VL具备多分 […]

智谱AI发布其最新GLM-4-Plus模型 以及展示了类似GPT 4o的语音视觉能力
智谱AI发布其最新GLM-4-Plus模型 以及展示了类似GPT 4o的语音视觉能力

智谱AI发布其最新基座大模型GLM-4-Plus以及展示了类似OpenAI GPT 4o模型的视觉能力,能进行 […]

Magic团队开发出一种超长上下文 AI 模型 LTM 可处理 1 亿个Token的上下文
Magic团队开发出一种超长上下文 AI 模型 LTM 可处理 1 亿个Token的上下文

Magic团队宣布开发出一种超长上下文AI模型LTM。它能够在推理过程中处理和利用多达1亿个token的上下文 […]

Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计
Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计

Playground v3(测试版)的发布,这是一个强大的图形设计工具,用户可以轻松创建和编辑各种图像和文本设 […]

ChatTTS-Forge :一个提供易于使用WebUI和接入各种TTS API服务的开源项目
ChatTTS-Forge :一个提供易于使用WebUI和接入各种TTS API服务的开源项目

ChatTTS-Forge 是一个围绕 TTS(文本转语音)生成模型开发的项目。为用户提供灵活的 TTS 生成 […]

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法
Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

随着学年的到来,Gemini 推出了专门帮助您学习的新功能。旨在提升学生的学习体验,特别适用于18岁及以上的学 […]

腾讯云媒体服务发布一个基于Web 3D技术构建的在线互动平台:3D虚拟展厅
腾讯云媒体服务发布一个基于Web 3D技术构建的在线互动平台:3D虚拟展厅

腾讯云媒体服务发布一个基于Web 3D技术构建的在线互动平台:3D虚拟展厅。 3D虚拟展厅允许用户通过个性化虚 […]

GenWarp:只需一张图像即可生成该图像不同视角的新图像
GenWarp:只需一张图像即可生成该图像不同视角的新图像

GenWarp 是一种能够从一张图像生成该图像不同视角的新图像的方法。通常情况下,生成一个场景的不同视角需要多 […]


1 5 6 7 8 9 32