微软对Azure AI语音服务升级发布9种更真实的AI语音

微软对Azure AI语音服务的Personal Voice功能进行了升级，引入了新的零样本学习（zero-shot）的文本到语音（TTS）模型。与初始模型相比，这些新模型提高了合成语音的自然度，并更好地模仿了提示语音中的语音特征。

与为一般目的设计的语音相比，这些为对话优化的语音在读取对话和非正式文本时听起来更自然、更吸引人。它们甚至包括笑声和填充停顿等插入语，为虚拟对话增添了人性化的触感。

微软提供了超过400种神经语音，涵盖140多种语言和地区。这些文本到语音（TTS）语音可以快速为应用添加朗读功能，使其设计更加无障碍，或为聊天机器人赋予声音，提供更丰富的对话体验。此外，通过自定义神经语音功能，您可以轻松为您的业务创建品牌声音。

视频播放器

00:00

使用上/下箭头键来增高或降低音量。

功能特点

快速个性化语音创建：用户只需提供一小段自己的语音样本，Zero-shot TTS模型就能快速创建出能模仿该用户独特语音特征的AI语音。这一过程仅需几秒钟，极大简化了个性化语音的生成流程。
高度自然的语音输出：与早期的TTS模型相比，Zero-shot TTS模型生成的语音更加自然、流畅，并且能更好地捕捉到人类语音的细微差别，如语调、节奏和情感表达，使合成语音更加生动、接近真人。
支持多种语言和口音：这些模型支持生成100种以上不同语言的语音输出，甚至可以处理不同的地区口音，让用户以自己的声音“说出”多种语言，适用于多语种的全球应用场景。
用途广泛：Zero-shot TTS模型不仅可用于个人化的应用，如聊天机器人、个人助理或语音驱动的内容创建，也适合需要跨语种配音的娱乐、教育和媒体产业，比如用原声演员的声音为影视作品配音。
模型选择的灵活性：Azure AI 语音服务提供了多种Zero-shot TTS模型，以适应不同的应用场景需求。例如，“DragonLatestNeural”模型更注重语音的自然度和表现力，适合内容创作；而“PhoenixLatestNeural”模型则在保持发音准确性和低延迟的同时，增强了声音的相似度，适用于实时交互场景。
负责任的AI使用：鉴于合成语音技术可能被误用的风险，微软对Zero-shot TTS模型的使用实施了严格的指导原则和访问控制，确保技术的负责任部署和使用，保护个人和社会的权利。