首页 > Ai资讯 > Ai日报 > 阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

发布时间:2024年07月09日

FunAudioLLM 是阿里巴巴开发的一组语音处理模型,旨在改善人类与大语言模型之间的语音交互。它由两个主要模型构成:SenseVoice 和 CosyVoice。

  • SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。
  • CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。

通过 SenseVoice 和 CosyVoice 的结合,FunAudioLLM 提供了全面的语音理解和生成功能,使得人与大语言模型之间的语音交互更加自然和丰富。

SenseVoice 和 CosyVoice 的主要功能

SenseVoice 主要专注于多语言语音识别、情感识别和音频事件检测,提供高精度、低延迟的语音处理能力。CosyVoice 则侧重于自然语音生成和控制,支持多种语言、音色和说话风格的生成,能够实现零样本学习和细粒度的语音控制。这两者结合,使得 FunAudioLLM 能够在多种应用场景下提供卓越的语音交互体验。

SenseVoice 主要功能
  1. 多语言语音识别
    • SenseVoice-Small:支持中文、英语、粤语、日语和韩语五种语言,采用非自回归端到端架构,识别延迟极低,比 Whisper-small 快5倍,比 Whisper-large 快15倍。
    • SenseVoice-Large:支持超过50种语言的高精度语音识别。
  2. 情感识别
    • 识别语音中的情感,如快乐、悲伤、愤怒等情感,通过检测语音的音调、节奏和语调变化来实现。
  3. 音频事件检测
    • 检测语音中的特殊事件,如音乐、笑声、掌声等,并能预测事件的开始和结束时间。
    • SenseVoice-Small 能够检测各种人机交互事件,如背景音乐、掌声、笑声、哭声、咳嗽和打喷嚏等。
  4. 语言识别
    • 能够识别说话者所使用的语言,确保语音识别的准确性和上下文理解。
  5. 逆文本规范化(Inverse Text Normalization, ITN)
    • 提供带标点和格式化的转录结果,提高转录文本的可读性和准确性。

主要特点

  • 多语言语音识别:训练数据超过40万小时,识别性能优于 Whisper 模型。
  • 高效推理:SenseVoice-Small 模型采用非自回归端到端框架,推理延迟极低,处理10秒音频只需70毫秒,速度比 Whisper-Large 快15倍。
  • 情感识别:在多个测试数据集上,达到了当前最佳情感识别模型的效果。
  • 事件检测:支持多种常见的音频事件检测。
  • 便捷的微调:提供便捷的微调脚本和策略,用户可以根据业务场景轻松解决长尾样本问题。
  • 服务部署:提供服务部署管道,支持多并发请求,客户端语言包括 Python、C++、HTML、Java 和 C# 等
CosyVoice 主要功能
  1. 语音生成
  2. 多样化的语音控制
    • 音色控制:可以精确控制生成语音的音色,使其与特定说话者的声音匹配。
    • 说话风格控制:通过文本指令控制语音的说话风格,如情感、语速、音高等。
  3. 零样本学习
    • 通过仅几秒钟的音频样本进行声音克隆,无需额外训练数据。
    • 支持跨语言的声音克隆,实现用一种语言的声音说另一种语言的话。
  4. 细粒度的副语言特征控制
    • 支持插入笑声、呼吸声、语气词等细微的语音特征,使生成的语音更加自然和生动。
    • 文本指令控制:可以通过文本指令精确控制说话人的身份、情感和说话风格。
  5. 多角色对话
    • 能够生成多角色的对话语音,适用于互动播客、情感聊天等场景。

FunAudioLLM 的应用

1. 语音到语音翻译 (Speech-to-Speech Translation)

FunAudi

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。