首页 > Ai资讯 > Ai日报 > OpenVoice:轻松克隆任何声音 用多种语言说话 并可控制情感口音

OpenVoice:轻松克隆任何声音 用多种语言说话 并可控制情感口音

发布时间:2024年05月18日

由MyShell TTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音,然后能生成多种语言的语音。

OpenVoice能对声音风格的精细控制,包括情感、口音、节奏、停顿和语调,同时能够复制参考发言者的音色。

支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

主要功能:

  • 准确的音色克隆:OpenVoice能够精确地克隆参考音色,并在多种语言和口音中生成语音。
  • 灵活的声音风格控制:允许用户对声音的情绪、口音、节奏、停顿和语调进行详细的调整,提供个性化的声音输出。
  • 零样本跨语言声音克隆:OpenVoice 实现了对大规模多语言数据集之外的语言进行零样本声音克隆,即使这些语言未在训练集中出现也能进行声音复制。
  • 高效的计算性能:相比于市场上现有的商业API,OpenVoice 在保持高性能的同时,计算成本大大降低。

OpenVoice V2的新增特性:

  • 更好的音频质量: 采用新的训练策略以提升音频质量。
  • 原生多语言支持: V2 版本原生支持英语、西班牙语、法语、中文、日语和韩语。
  • 集成 MeloTTS: V2 版本引入了 MeloTTS 技术,通过 pip install git+https://github.com/myshell-ai/MeloTTS.git 进行安装,这是一个新的文本到语音转换系统,增强了声音的自然度和表现力。
  • 免费商业使用: 自2024年4月起,V1和V2版本均以 MIT 许可证发布,支持商业和研究用途的免费使用。

技术方法:

  1. 声音样式和语言的解耦设计:
    • OpenVoice 的设计哲学是将声音的不同特性(如音色、风格、语言)进行解耦,使得可以独立控制各个参数,从而达到灵活调整的目的。这一设计减少了模型的大小和复杂性,提高了操作的灵活性和推断速度。
  2. 基础发音者TTS模型与音色转换器:
    • 基础发音者TTS模型:这一模型允许对风格参数进行控制,如情绪和口音等。它是一个单发音者或多发音者模型,可以通过改变输入的风格和语言嵌入来输出不同风格的语音。
    • 音色转换器:这一组件采用编码器-解码器结构,负责将基础发音者的音色转换为参考发音者的音色。通过这种方式,即使基础声音与目标声音风格不同,也能保持原有风格的同时改变音色。
  3. 训练策略和数据处理:
    • 在训练过程中,采用了大量的多语种、多风格的音频样本。通过这些样本,模型学习如何准确复制音色并控制声音的不同风格。使用特定的损失函数来确保在保留风格的同时去除或转换音色,从而实现高质量的声音生成。

网站:http://research.myshell.ai/open-voice

GitHub:http://github.com/myshell-ai/OpenVoice

技术报告:https://arxiv.org/pdf/2312.01479.pdf

在线演示:http://lepton.ai/playground/openvoice

创建自己的语音机器人:http://myshell.ai

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。