首页 > Ai资讯
StructLDM:根据2D图像的学习 自动生成3D的人体模型
StructLDM:根据2D图像的学习 自动生成3D的人体模型

StructLDM项目是由南洋理工大学开发的一个先进的3D人体生成技术。它能够根据2D图像的学习,自动生成3D […]

Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息
Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息

Hand Talk App:利用人工智能自动将文本和音频翻译成美国手语(ASL)和巴西手语(Libras)。这 […]

用于模拟人体心脏的机电驱动流体动力学模型
用于模拟人体心脏的机电驱动流体动力学模型

这项研究开发了一种复杂的计算模型,用以模拟整个人类心脏的血液动力学,即心脏内血流的流动和变化。这个模型特别的地 […]

Google研究项目:通过逐帧分析视频内容,实时理解和生成视频字幕
Google研究项目:通过逐帧分析视频内容,实时理解和生成视频字幕

Google介绍了一种新型的视频字幕生成方法,专门用于处理视频中的密集事件并为其生成字幕。这种方法的亮点在于它 […]

使用Midjourney创建角色表 确保角色的一致性和复杂性
使用Midjourney创建角色表 确保角色的一致性和复杂性

创建角色表是一种既简单又强大的方法,可以用于各种目的,包括角色信息收集、故事板制作、新工作流程宣布以及测试角色 […]

WhisperKit :只需2行代码即可部署在在Apple设备上的实时语音推理Swift包
WhisperKit :只需2行代码即可部署在在Apple设备上的实时语音推理Swift包

WhisperKit是一个Swift包,它将OpenAI流行的Whisper语音识别模型与Apple的Core […]

Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像
Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

Facet是一个专为创意专业人士设计的协作AI图像生成和编辑工具,提供了强大的图像合成能力。 它结合了直观的画 […]

Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流
Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流

Dify Workflow 是一种新推出的 AI 工作流程工具,旨在帮助大语言模型(LLMs)的应用能更好地落 […]

Spotify 推出AI 播放列表功能 输入提示即可自动生成播放列表
Spotify 推出AI 播放列表功能 输入提示即可自动生成播放列表

Spotify 推出了一个名为 AI 播放列表的新功能,该功能处于测试阶段,允许用户基于书面提示生成播放列表。 […]

Transformer-Lite:在手机 GPU上高效部署大语言模型
Transformer-Lite:在手机 GPU上高效部署大语言模型

Transformer-Lite是一款专为移动设备设计的推理引擎,由OPPO AI研究中心开发,它旨在将大语言 […]

Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型
Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。 它把 […]

DreamWalk:在图像生成中 实现对风格和内容的精细控制
DreamWalk:在图像生成中 实现对风格和内容的精细控制

DreamWalk:利用扩散引导技术进行风格空间的探索,能够在图像生成中实现对风格和内容的精细控制。 它主要针 […]

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素
DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

DesignEdit是一个先进的图像编辑研究项目,旨在通过多层次潜在分解与融合技术实现统一且精确的图像编辑。这 […]

Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力
Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放API 现已在180多个国家提供 新增对原生音频(语音) […]

OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文
OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

OpenAI 发布了GPT-4-Turbo 正式版 带有视觉能力,上下文 128k 主要信息包括: ▶ 全面开 […]

MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型
MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型

MagicTime:是一个专注于生成变形时间延迟视频的模型,集成DiT-based架构,解决了现有文本到视频( […]

Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型
Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型

Google发布Gemma 系列的新成员,这是一系列针对开发者和研究者设计的轻量级、最先进的开放模型,建立在创 […]

HairFastGAN:将一张照片上的人物发型转移到另一张照片上
HairFastGAN:将一张照片上的人物发型转移到另一张照片上

HairFastGAN,一个解决将参考图像中的发型转移到输入照片上以进行虚拟发型试戴的复杂任务的新方法。它能够 […]

Parler-TTS :一个完全开源的的高质量TTS模型
Parler-TTS :一个完全开源的的高质量TTS模型

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够以给定说话 […]

LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API
LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API

LLocalSearch 是一个完全本地运行的搜索聚合器,使用LLM Agents。用户可以提出一个问题,系统 […]

FreeAskInternet:无需GPU 完全免费、私密且本地运行的搜索答案生成器
FreeAskInternet:无需GPU 完全免费、私密且本地运行的搜索答案生成器

FreeAskInternet 是一个开源项目,提供了一个完全免费、私密且本地运行的类似perplexity. […]

SDXL精选微调模型API大全 可直接运行或者使用
SDXL精选微调模型API大全 可直接运行或者使用

Replicate上的“SDXL fine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型。这些微 […]

Infini-attention:通过压缩记忆技术 使模型能够处理无限长的输入
Infini-attention:通过压缩记忆技术 使模型能够处理无限长的输入

Google开发出一种名为“Infini-attention”的新型注意力技术,旨在有效扩展基于Transfo […]

Udio官方FAQ教程:如何使用 Udio 制作音乐?
Udio官方FAQ教程:如何使用 Udio 制作音乐?

Udio是什么 UdioUdio 由前谷歌 DeepMind 的领先 AI 研究员和工程师创立,得到 a16z […]

福布斯人工智能 50 强榜单发布 附完整榜单
福布斯人工智能 50 强榜单发布 附完整榜单

第六届福布斯人工智能 50 强榜单展示了从 1900 家申请公司中评选出的顶级人工智能公司,彰显了该行业的发展 […]

DreamWorld AI:仅靠单镜头摄像设备精确捕捉全身运动和表情
DreamWorld AI:仅靠单镜头摄像设备精确捕捉全身运动和表情

DreamWorld AI:他们的专有AI模型和算法允许用户无需穿戴特殊的装备或使用追踪标记,仅需单镜头摄像设 […]

Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛
Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛

Warning: Attempt to read property "child" on null in /v […]

SceneScript :让 AR 和人工智能设备了解物理空间的几何形状
SceneScript :让 AR 和人工智能设备了解物理空间的几何形状

SceneScript 是由 Meta Reality Labs Research 开发的一种新型 3D 场景 […]

Ideogram改进图像渲染质量和控制 推出Describe增强提示功能
Ideogram改进图像渲染质量和控制 推出Describe增强提示功能

Ideogram.ai 最近发布了其文本到图像模型 Ideogram 1.0 的一次重大升级。这次更新不仅改进 […]

Cohere 推出 Rerank 3 可与任何数据库或搜索索引兼容
Cohere 推出 Rerank 3 可与任何数据库或搜索索引兼容

Cohere 最近推出了其最新的基础模型 Rerank 3,专为提升企业搜索和检索增强生成(RAG)系统而设计 […]


1 80 81 82 83 84 128