首页 > Ai资讯 > Ai知识库 > 【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

发布时间：2024年07月12日

13236

项目主页-https://fun-audio-llm.github.io/

代码链接-https://github.com/FunAudioLLM/

论文链接-https://arxiv.org/pdf/2407.04051

理论篇:
FunAudioLLM项目介绍

FunAudioLLM整体系统框架介绍

FunAudioLLM是阿里语音团队最新开源的项目，用于改善人类与大型语言模型的自然语音交互。包含两个核心模型：SenseVoice 负责语音识别和音频处理，CosyVoice 负责语音生成和控制。

SenseVoice-Small 提供5种语言(中文、英文、日语、韩语、粤语)的低延迟 ASR(目前已开源)，SenseVoice-Large 支持超过 50 种语言的高精度 ASR。
CosyVoice 特点:包括多语言语音生成、零样本学习、跨语言克隆和指令遵循。整体项目的框架如下:

核心模型一: 语音识别模型SenseVoice介绍

SenseVoice是一个全面的语音基础模型，旨在执行各种语音理解任务，包括自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

SenseVoice-Small：一个仅编码器的模型，优化了快速语音理解。它在支持5种语言的同时提供高速处理。
SenseVoice-Large：一个编码器-解码器模型，旨在实现更精确的语音理解，支持更广泛的语言范围。它以准确性见长，并支持大量的语言功能。

SenseVoice模型具有的功能特点：

多语言语音识别：SenseVoice 支持包括中文、英文、粤语、日语和韩语在内的多语言识别。
低延迟：特别是 SenseVoice-Small 版本，采用非自回归端到端架构，提供了极低的推理延迟。
高性能：与 Whisper-small(已开源) 和 Whisper-large 相比，SenseVoice-Small 的性能分别快 5 倍和 15 倍以上。
情感识别：SenseVoice 提供最先进的情感识别能力（例如高兴、悲伤、生气等），能够检测音频中的特定事件，如音乐、掌声和笑声等。
高精准度：SenseVoice-Large(目前还未开源) 支持超过 50 种语言的高精准度自动语音识别（ASR）。

核心模型二: 语音合成模型CosyVoice介绍

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

FunAudioLLM的应用场景

SenseVoice+ LLMs+
CosyVoice实现同声翻译

如果你想要了解关于智能工具类的内容，可以查看智汇宝库，这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息，了解智能工具的用法以及最新动态。

EchoMimic：通过音频和面部标志生成逼真的音画同步肖像视频自己电脑上跑大语言模型（LLM）要多少内存？

最新工具