17K star!30秒偷走你的声音,开源声音克隆工具
发布时间:2024年07月30日
现在的AI发展越来越快,生成一段语音不是难事,那如果生成的是你自己的声音?
今天我们分享一款开源的声音克隆工具,只需30秒的一般音源,它就可以偷走你的声音,它就是:OpenVoice。
OpenVoice是什么
OpenVoice 是由AI 创业公司 openshell 开源的一款声音克隆工具。OpenVoice 只需要来自目标说话者的简短音频样本即可准确复制其独特的声调和特征。然后,它可以生成听起来自然的语音,以多种语言模仿该语音,同时为用户提供对情感、口音、节奏和语调等参数的精细控制。
用户只需要提供一段大约30秒的音频样本,可以是任何人的声音,然后系统会通过深度学习技术对音频进行分析和处理,精确地克隆出原声音。
OpenVoice 的优势有三个方面:
1. 准确的音色克隆。 OpenVoice 可以准确克隆参考音色并生成多种语言和口音的语音。
2.灵活的音色控制。 OpenVoice 可以对语音风格(例如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。
3.零样本跨语言语音克隆。生成语音的语言和参考语音的语言都不需要出现在大规模说话人多语言训练数据集中。
更多详细可以查看OpenVoice团队的论文和网站介绍。
论文:https://arxiv.org/abs/2312.01479
网站:https://research.myshell.ai/open-voice
安装OpenVoice
OpenVoice 通过3个在线渠道提供了服务,可以为不关注稳定性和质量、只是希望快速体验一下产品的用户提供服务。3个网站分别是:LeptonAI、MyShell和HuggingFace
当然如果你觉得自己技术能力足够,熟悉Linux, Python 和 PyTorch,并且有服务器资源,那可以自己在Linux上进行安装部署。前置需要安装conda,大家自己在网上搜一下即可,不是很复杂。
·
·
conda create -n openvoice python=3.9
conda activate openvoice
git clone git@github.com:myshell-ai/OpenVoice.git
cd OpenVoice
pip install -e .
然后下载checkpoints,并解压到对应的文件夹。这个安装过程在Mac上也同样适用。
启动完成后,可以访问http://127.0.0.1:7860来使用。
使用OpenVoice
项目组说体验OpenVoice最方便的方法是直接使用MyShell中免费的TTS和即时语音克隆服务.
MyShell 是一个AI的集合,里面提供了很多的AI工具,比如文生图、语音、视频等。使用的时候需要自己创建一个机器人,然后来使用OpenVoice的能力,大家可以自己去体验一下。
另外也可以用HuggingFace的体验地址,这里的使用界面和自己本地部署是基本一致的。
Text Prompt
将需要转音频的文字写在这里
Style
可以根据需要选择语气。
Reference Audio
这里是参考音频,也就是我们希望克隆的声音
开始转换
写好文字,选好语气,就可以开始生成了。右侧会产生出新的音频。
在线的环境中主要是对英文的支持,中文支持不太好,OpenVoice实际是支持多语言的,在实际使用时只需安装对应的模型即可。
总结
总结
最后,想自己部署玩得顺畅,那最好有显卡,我的Mac 跑还是挺慢的。
OpenVoice 是一项技术,而不是一个产品。项目希望可以通过不断的努力,让免费的声音克隆也能像商业产品一样优秀。虽然如果使用正确的话它可以在大多数声音上工作,但请不要指望它在所有情况下都能完美工作,因为将一项技术转化为稳定的产品需要大量的工程工作。该技术的目标用户是开发人员和研究人员,而不是最终用户。虽然它不是完美的产品,但OpenVoice 是可用开源语音克隆技术中最先进的
项目信息
·
项目名称:OpenVoice
·
·
GitHub 链接:https://github.com/myshell-ai/OpenVoice
·
·
Star 数:17K
·
出自:https://mp.weixin.qq.com/s/2MEJVQMyB8u671ma7rS4Cw
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
新一代3D室内设计AI工具,允许用户在几分钟内创建 3D 可视化和渲染。它提供了广泛的特性和功能,为设计师在设计过程中提供支持。