首页 > Ai资讯 > Ai日报
阿里巴巴推出Qwen1.5-32B 模型 兼顾效率和准确性
阿里巴巴推出Qwen1.5-32B 模型 兼顾效率和准确性

阿里巴巴推出Qwen1.5-32B 模型 Qwen1.5-32B 是Qwen1.5语言模型系列的最新成员,这个 […]

Higgsfield AI:仅需一张照片生成逼真可控制的视频
Higgsfield AI:仅需一张照片生成逼真可控制的视频

Higgsfield.ai 正在开发一个基础视频模型,这是一种先进的AI系统,专为视频内容创作而设计,目的是为 […]

Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互
Claude发布函数调用工具:Tool use 允许模型与外部系统进行交互

“Tool use (function calling)是Claude一个特定功能,允许它与外部客户端工具和函 […]

研究:语言模型可以通过吸收同源模型的参数来获得新的能力
研究:语言模型可以通过吸收同源模型的参数来获得新的能力

这篇论文展示了语言模型(LMs)可以通过吸收(即融合)来自同源模型的参数来获得新的能力,这个过程不需要重新训练 […]

Lixel CyberColor:复刻真实世界 自动创建超逼真电影级别的大规模3D模型
Lixel CyberColor:复刻真实世界 自动创建超逼真电影级别的大规模3D模型

Lixel CyberColor (LCC) 是由 XGRIDS 公司开发的一款先进技术产品,旨在自动生成大规 […]

Twitter-web-exporter:一键导出X的推文、书签、列表 无需API
Twitter-web-exporter:一键导出X的推文、书签、列表 无需API

Twitter-web-exporter:一键导出推文、书签、列表   一个开源工具,可以直接在浏览器运行。 […]

Anthropic Cookbook:Claude开发系列教程 包括详细代码和指南
Anthropic Cookbook:Claude开发系列教程 包括详细代码和指南

Anthropic Cookbook是一个开源项目,收集了一些有趣且有效的方法来教你使用Claude。这个项目 […]

Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品
Clarity AI :AI图像放大与增强 – 免费且开源的Magnific替代品

Clarity AI是一个AI图像放大与增强的工具,提供了一个免费和开源的Magnific替代方案。 主要特点 […]

Make-It-Vivid:通过文字描述即可为动漫人物更换衣服皮肤
Make-It-Vivid:通过文字描述即可为动漫人物更换衣服皮肤

在制作3D动画角色时,除了角色的形状和结构(我们称之为几何设计)之外,角色的外观、颜色和纹理(即角色的皮肤和衣 […]

Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型

Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型   CT-LLM是针对中文设计的首个大 […]

StructLDM:根据2D图像的学习 自动生成3D的人体模型
StructLDM:根据2D图像的学习 自动生成3D的人体模型

StructLDM项目是由南洋理工大学开发的一个先进的3D人体生成技术。它能够根据2D图像的学习,自动生成3D […]

Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息
Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息

Hand Talk App:利用人工智能自动将文本和音频翻译成美国手语(ASL)和巴西手语(Libras)。这 […]

用于模拟人体心脏的机电驱动流体动力学模型
用于模拟人体心脏的机电驱动流体动力学模型

这项研究开发了一种复杂的计算模型,用以模拟整个人类心脏的血液动力学,即心脏内血流的流动和变化。这个模型特别的地 […]

Google研究项目:通过逐帧分析视频内容,实时理解和生成视频字幕
Google研究项目:通过逐帧分析视频内容,实时理解和生成视频字幕

Google介绍了一种新型的视频字幕生成方法,专门用于处理视频中的密集事件并为其生成字幕。这种方法的亮点在于它 […]

使用Midjourney创建角色表 确保角色的一致性和复杂性
使用Midjourney创建角色表 确保角色的一致性和复杂性

创建角色表是一种既简单又强大的方法,可以用于各种目的,包括角色信息收集、故事板制作、新工作流程宣布以及测试角色 […]

WhisperKit :只需2行代码即可部署在在Apple设备上的实时语音推理Swift包
WhisperKit :只需2行代码即可部署在在Apple设备上的实时语音推理Swift包

WhisperKit是一个Swift包,它将OpenAI流行的Whisper语音识别模型与Apple的Core […]

Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像
Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

Facet是一个专为创意专业人士设计的协作AI图像生成和编辑工具,提供了强大的图像合成能力。 它结合了直观的画 […]

Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流
Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流

Dify Workflow 是一种新推出的 AI 工作流程工具,旨在帮助大语言模型(LLMs)的应用能更好地落 […]

Spotify 推出AI 播放列表功能 输入提示即可自动生成播放列表
Spotify 推出AI 播放列表功能 输入提示即可自动生成播放列表

Spotify 推出了一个名为 AI 播放列表的新功能,该功能处于测试阶段,允许用户基于书面提示生成播放列表。 […]

Transformer-Lite:在手机 GPU上高效部署大语言模型
Transformer-Lite:在手机 GPU上高效部署大语言模型

Transformer-Lite是一款专为移动设备设计的推理引擎,由OPPO AI研究中心开发,它旨在将大语言 […]

Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型
Ferret-UI:苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面(UI)互动的多模态大语言模型(MLLM)。 它把 […]

DreamWalk:在图像生成中 实现对风格和内容的精细控制
DreamWalk:在图像生成中 实现对风格和内容的精细控制

DreamWalk:利用扩散引导技术进行风格空间的探索,能够在图像生成中实现对风格和内容的精细控制。 它主要针 […]

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素
DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

DesignEdit是一个先进的图像编辑研究项目,旨在通过多层次潜在分解与融合技术实现统一且精确的图像编辑。这 […]

Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力
Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放API 现已在180多个国家提供 新增对原生音频(语音) […]

OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文
OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

OpenAI 发布了GPT-4-Turbo 正式版 带有视觉能力,上下文 128k 主要信息包括: ▶ 全面开 […]

MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型
MagicTime:能生成反映真实世界物理变化过程的时间延迟视频模型

MagicTime:是一个专注于生成变形时间延迟视频的模型,集成DiT-based架构,解决了现有文本到视频( […]

Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型
Google扩充Gemma开源家族 推出CodeGemma 和 RecurrentGemma模型

Google发布Gemma 系列的新成员,这是一系列针对开发者和研究者设计的轻量级、最先进的开放模型,建立在创 […]

HairFastGAN:将一张照片上的人物发型转移到另一张照片上
HairFastGAN:将一张照片上的人物发型转移到另一张照片上

HairFastGAN,一个解决将参考图像中的发型转移到输入照片上以进行虚拟发型试戴的复杂任务的新方法。它能够 […]

Parler-TTS :一个完全开源的的高质量TTS模型
Parler-TTS :一个完全开源的的高质量TTS模型

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音(TTS)模型,能够以给定说话 […]

LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API
LLocalSearch:完全本地运行的搜索聚合器 无需 OpenAI 或 Google API

LLocalSearch 是一个完全本地运行的搜索聚合器,使用LLM Agents。用户可以提出一个问题,系统 […]


1 22 23 24 25 26 29