VoiceCraft是由德州大学奥斯汀分校和Rembrand的研究团队开发的高级语音技术。它主要做两件事:一是编辑现有的语音录音,二是将文本转换成语音(也就是文字到语音转换,简称TTS),并且这些都可以在没有事先大量学习特定人声的情况下完成。
VoiceCraft在语音编辑方面能够使编辑后的语音几乎听不出和原始录音的区别。在无样本文本到语音转换(即在没有大量特定人声学习样本的情况下进行文字到语音的转换)方面,它的性能超过了当前最好的模型,包括VALLE和XTTS v2这样的商业模型。
Support authors and subscribe to content
This is premium stuff. Subscribe to read the entire article.
Login if you have purchased
Stable Diffusion 是一种基于扩散过程的图像生成模型,可以生成高质量、高分辨率的图像。它通过模拟扩散过程,将噪声图像逐渐转化为目标图像。这种模型具有较强的稳定性和可控性,可以生成具有多样化效果和良好视觉效果的图像。Stable Diffusion与Midjourney的比较