Ai日报 - 第 27 页 - 智汇宝库

首页 > Ai资讯 > Ai日报

Anthropic Cookbook：Claude开发系列教程包括详细代码和指南

Anthropic Cookbook：Claude开发系列教程包括详细代码和指南

Anthropic Cookbook是一个开源项目，收集了一些有趣且有效的方法来教你使用Claude。这个项目 […]

Clarity AI ：AI图像放大与增强 – 免费且开源的Magnific替代品

Clarity AI ：AI图像放大与增强 – 免费且开源的Magnific替代品

Clarity AI是一个AI图像放大与增强的工具，提供了一个免费和开源的Magnific替代方案。主要特点 […]

Make-It-Vivid：通过文字描述即可为动漫人物更换衣服皮肤

Make-It-Vivid：通过文字描述即可为动漫人物更换衣服皮肤

在制作3D动画角色时，除了角色的形状和结构（我们称之为几何设计）之外，角色的外观、颜色和纹理（即角色的皮肤和衣 […]

Chinese Tiny LLM：从头开始训练专注于中文的大语言模型

Chinese Tiny LLM：从头开始训练专注于中文的大语言模型

Chinese Tiny LLM：从头开始训练专注于中文的大语言模型 CT-LLM是针对中文设计的首个大 […]

StructLDM：根据2D图像的学习自动生成3D的人体模型

StructLDM：根据2D图像的学习自动生成3D的人体模型

StructLDM项目是由南洋理工大学开发的一个先进的3D人体生成技术。它能够根据2D图像的学习，自动生成3D […]

Hand Talk: 将语音和文字翻译为手语帮助听障人士获取信息

Hand Talk: 将语音和文字翻译为手语帮助听障人士获取信息

Hand Talk App：利用人工智能自动将文本和音频翻译成美国手语(ASL)和巴西手语(Libras)。这 […]

用于模拟人体心脏的机电驱动流体动力学模型

用于模拟人体心脏的机电驱动流体动力学模型

这项研究开发了一种复杂的计算模型，用以模拟整个人类心脏的血液动力学，即心脏内血流的流动和变化。这个模型特别的地 […]

Google研究项目：通过逐帧分析视频内容，实时理解和生成视频字幕

Google研究项目：通过逐帧分析视频内容，实时理解和生成视频字幕

Google介绍了一种新型的视频字幕生成方法，专门用于处理视频中的密集事件并为其生成字幕。这种方法的亮点在于它 […]

使用Midjourney创建角色表确保角色的一致性和复杂性

使用Midjourney创建角色表确保角色的一致性和复杂性

创建角色表是一种既简单又强大的方法，可以用于各种目的，包括角色信息收集、故事板制作、新工作流程宣布以及测试角色 […]

WhisperKit ：只需2行代码即可部署在在Apple设备上的实时语音推理Swift包

WhisperKit ：只需2行代码即可部署在在Apple设备上的实时语音推理Swift包

WhisperKit是一个Swift包，它将OpenAI流行的Whisper语音识别模型与Apple的Core […]

Facet AI：可以精确控制图像元素的展现适合制作广告和专业图像

Facet AI：可以精确控制图像元素的展现适合制作广告和专业图像

Facet是一个专为创意专业人士设计的协作AI图像生成和编辑工具，提供了强大的图像合成能力。它结合了直观的画 […]

Dify AI推出 Workflow AI 工具只需拖拽即可轻松构建工作流

Dify AI推出 Workflow AI 工具只需拖拽即可轻松构建工作流

Dify Workflow 是一种新推出的 AI 工作流程工具，旨在帮助大语言模型（LLMs）的应用能更好地落 […]

Spotify 推出AI 播放列表功能输入提示即可自动生成播放列表

Spotify 推出AI 播放列表功能输入提示即可自动生成播放列表

Spotify 推出了一个名为 AI 播放列表的新功能，该功能处于测试阶段，允许用户基于书面提示生成播放列表。 […]

Transformer-Lite：在手机 GPU上高效部署大语言模型

Transformer-Lite：在手机 GPU上高效部署大语言模型

Transformer-Lite是一款专为移动设备设计的推理引擎，由OPPO AI研究中心开发，它旨在将大语言 […]

Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

Ferret-UI是由苹果开发的一个专门理解和与移动用户界面（UI）互动的多模态大语言模型（MLLM）。它把 […]

DreamWalk：在图像生成中实现对风格和内容的精细控制

DreamWalk：在图像生成中实现对风格和内容的精细控制

DreamWalk：利用扩散引导技术进行风格空间的探索，能够在图像生成中实现对风格和内容的精细控制。它主要针 […]

DesignEdit：实现统一与精确的图像编辑操控图像中的各个元素

DesignEdit：实现统一与精确的图像编辑操控图像中的各个元素

DesignEdit是一个先进的图像编辑研究项目，旨在通过多层次潜在分解与融合技术实现统一且精确的图像编辑。这 […]

Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放 API 新增对原生语音理解能力

Google 宣布 Gemini 1.5 Pro 开放API 现已在180多个国家提供新增对原生音频（语音） […]

OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

OpenAI 发布带有视觉能力的GPT-4-Turbo 128k上下文

OpenAI 发布了GPT-4-Turbo 正式版带有视觉能力，上下文 128k 主要信息包括： ▶ 全面开 […]

MagicTime：能生成反映真实世界物理变化过程的时间延迟视频模型

MagicTime：能生成反映真实世界物理变化过程的时间延迟视频模型

MagicTime：是一个专注于生成变形时间延迟视频的模型，集成DiT-based架构，解决了现有文本到视频（ […]

Google扩充Gemma开源家族推出CodeGemma 和 RecurrentGemma模型

Google扩充Gemma开源家族推出CodeGemma 和 RecurrentGemma模型

Google发布Gemma 系列的新成员，这是一系列针对开发者和研究者设计的轻量级、最先进的开放模型，建立在创 […]

HairFastGAN：将一张照片上的人物发型转移到另一张照片上

HairFastGAN：将一张照片上的人物发型转移到另一张照片上

HairFastGAN，一个解决将参考图像中的发型转移到输入照片上以进行虚拟发型试戴的复杂任务的新方法。它能够 […]

Parler-TTS ：一个完全开源的的高质量TTS模型

Parler-TTS ：一个完全开源的的高质量TTS模型

Parler-TTS 是一个由 Hugging Face 开发的轻量级文本转语音（TTS）模型，能够以给定说话 […]

LLocalSearch：完全本地运行的搜索聚合器无需 OpenAI 或 Google API

LLocalSearch：完全本地运行的搜索聚合器无需 OpenAI 或 Google API

LLocalSearch 是一个完全本地运行的搜索聚合器，使用LLM Agents。用户可以提出一个问题，系统 […]

FreeAskInternet：无需GPU 完全免费、私密且本地运行的搜索答案生成器

FreeAskInternet：无需GPU 完全免费、私密且本地运行的搜索答案生成器

FreeAskInternet 是一个开源项目，提供了一个完全免费、私密且本地运行的类似perplexity. […]

SDXL精选微调模型API大全可直接运行或者使用

SDXL精选微调模型API大全可直接运行或者使用

Replicate上的“SDXL fine-tunes”收藏包含了一系列基于SDXL模型的精选微调模型。这些微 […]

Infini-attention：通过压缩记忆技术使模型能够处理无限长的输入

Infini-attention：通过压缩记忆技术使模型能够处理无限长的输入

Google开发出一种名为“Infini-attention”的新型注意力技术，旨在有效扩展基于Transfo […]

Udio官方FAQ教程：如何使用 Udio 制作音乐？

Udio官方FAQ教程：如何使用 Udio 制作音乐？

Udio是什么 UdioUdio 由前谷歌 DeepMind 的领先 AI 研究员和工程师创立，得到 a16z […]

福布斯人工智能 50 强榜单发布附完整榜单

福布斯人工智能 50 强榜单发布附完整榜单

第六届福布斯人工智能 50 强榜单展示了从 1900 家申请公司中评选出的顶级人工智能公司，彰显了该行业的发展 […]

DreamWorld AI：仅靠单镜头摄像设备精确捕捉全身运动和表情

DreamWorld AI：仅靠单镜头摄像设备精确捕捉全身运动和表情

DreamWorld AI：他们的专有AI模型和算法允许用户无需穿戴特殊的装备或使用追踪标记，仅需单镜头摄像设 […]

1 … 25 26 27 28 29 … 32