首页 > Ai资讯 > Ai日报 > NVIDIA 发布一款音乐生成模型：Fugatto 可以对声音生成与转换进行精细化控制

NVIDIA 发布一款音乐生成模型：Fugatto 可以对声音生成与转换进行精细化控制

发布时间：2024年11月27日

77

NVIDIA 发布了一款音乐生成人工智能模型：Fugatto。通过简单的文本提示或音频输入，用户可以创作全新的声音景观或修改已有的声音元素。例如，用户可以通过文字提示创作音乐片段、调整语音的口音与情绪、添加或删除乐器，甚至生成从未听过的独特声音效果。

Fugatto 提供对声音生成与转换的精细化控制，用户可以结合多种艺术属性，例如调整语音的情感和口音强度，或创作动态变化的声音场景。

视频播放器

00:00

00:00

00:00

使用上/下箭头键来增高或降低音量。

1. 音频生成与转换的多任务支持

**文本生成音频：**根据用户的文本提示，生成符合描述的音乐、语音或声音效果。例如，一段带有特定情感或风格的音乐。
**音频转换：**支持对现有音频的修改，例如添加或删除乐器、调整语音的情感、口音或语调。

2. 高度个性化的艺术控制

**组合式指令 (ComposableART)：**允许用户结合多种属性，如“用法国口音讲述悲伤的故事”，并精确调整这些属性的强度。
**时序插值 (Temporal Interpolation)：**生成动态变化的声音，例如模拟雨声由近及远或逐渐转变为清晨鸟鸣。

3. 创作从未听过的声音

Fugatto 不局限于重现训练数据，支持生成全新且未曾存在的声音效果，例如“让小号发出狗吠声”或“萨克斯风模仿猫叫”。

4. 多语言与多口音支持

**多语言生成：**支持不同语言的文本到语音生成，适用于跨区域或多语言场景。
**多口音调整：**轻松为语音添加不同地区的口音，例如美国、法国或中国口音。

5. 动态音频与场景生成

能够根据用户的描述生成完整的动态音频场景。例如，从风暴中逐渐过渡到宁静的清晨，用音频描绘情感变化。

6. 灵活的应用场景

**音乐创作：**为音乐人提供快速创意原型工具，支持风格、音色、情感的自由切换。
**广告配音：**调整现有广告的语音口音或情感，快速适应不同市场需求。
**语言学习：**提供个性化的教学语音，例如以家人或朋友的语音讲解。
**游戏开发：**实时调整游戏音效，适应动态场景需求，或从文本生成全新音频素材。

7. 高品质音频生成

通过少量的额外数据微调，Fugatto 能够执行未曾训练过的新任务，例如从文本提示生成高质量的歌声。

官方博客：https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

如果你想要了解关于智能工具类的内容，可以查看智汇宝库，这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息，了解智能工具的用法以及最新动态。

PicMenu：利用AI可视化你的菜单你只需拍一下菜单即可将你的菜名生成对应的图片 OminiControl：基于FLUX.1的通用的控制框架通过参考图像来控制图像生成的结果

最新工具