开源版GPT-4o语音来袭,Mini-Omni开启实时语音对话
发布时间:2024年09月06日
还记得前阵子ChatGPT风靡一时但一直没全量发布的高级语音功能吗?
如今,一个甚至更加强大的实时语音对话AI模型开源了!它的名字叫做:Mini-Omni。
这个由gpt-omni团队开发的开源模型,可以说是语音助手界的一匹黑马。它不仅能实现实时的语音对话,更厉害的是,它还能同时生成文本和音频!
有网友兴奋不已:
"这简直就是科幻电影里的场景啊!以后我们是不是可以和AI助手进行无障碍的实时对话了?"
Mini-Omni的出现,可能会让现有的语音助手们瑟瑟发抖。
想想看,以后我们可能真的能和AI进行流畅的实时对话,就像在和真人聊天一样!
而数次跳票的ChatGPT 4o 语音功能,可能可以永久跳票了。
那么,Mini-Omni有哪些特性呢?
- 实时语音对话:这意味着你说话的同时,AI就能立即理解并回应,不再有明显的延迟。
- 同时生成文本和音频:这个功能简直太强大了!AI不仅能说,还能同步给出文字版本,对听力不好的朋友来说简直是福音。
- 流式音频输出:这个技术确保了对话的流畅性,让整个交互过程更加自然。
Mini-Omni的开源,很可能会引发语音交互领域的一场革命。它不仅能提升用户体验,还可能为听障人士带来更多便利。
想象一下,以后我们可能真的能和AI进行毫无障碍的实时对话,这是多么令人兴奋的事情啊!
对这个项目感兴趣的小伙伴们,我整理好了相关链接:
·模型下载:https://hf.co/gpt-omni/mini-omni
·论文地址:https://hf.co/papers/2408.16725
·代码仓库:https://github.com/gpt-omni/mini-omni
Mini-Omni 官方介绍👇
Mini-Omni:语言模型在流式处理中的听、说、思考能力
Mini-Omni 是一个开源的多模态大型语言模型,能够在思考的同时进行听觉和对话。它具备实时的端到端语音输入和流式音频输出对话功能。
功能特点
✅实时语音对话功能,无需额外的ASR或TTS模型。
✅边思考边对话,支持同时生成文本和音频。
✅支持流式音频输出。
✅提供“音频转文本”和“音频转音频”的批量推理,进一步提升性能。
演示
,时长00:59
安装
创建一个新的conda环境并安装所需的包:
conda create -n omni python=3.10
conda activate omni
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
pip install -r requirements.txt
快速开始
交互式演示
- 启动服务器
conda activate omni
cd mini-omni
python3 server.py --ip '0.0.0.0' --port 60808
- 运行 Streamlit 演示
注意:你需要本地运行 Streamlit 并安装 PyAudio。
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
- 运行 Gradio 演示
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
示例:
注意:Gradio 似乎无法立即播放音频流,因此延迟感会稍强。
,时长00:28
本地测试
conda activate omni
cd mini-omni
# 测试运行预设的音频样本和问题
python inference.py
致谢
- Qwen2[1]作为 LLM 主干。
- litGPT[2]用于训练和推理。
- whisper[3]用于音频编码。
- snac[4]用于音频解码。
- CosyVoice[5]用于生成合成语音。
- OpenOrca[6]和MOSS[7]用于对齐。
参考链接
[1]
Qwen2: https://github.com/QwenLM/Qwen2/
[2]
litGPT: https://github.com/Lightning-AI/litgpt/
[3]
whisper: https://github.com/openai/whisper/
[4]
snac: https://github.com/hubertsiuzdak/snac/
[5]
CosyVoice: https://github.com/FunAudioLLM/CosyVoice
[6]
OpenOrca: https://huggingface.co/datasets/Open-Orca/OpenOrca
[7]
MOSS: https://github.com/OpenMOSS/MOSS/tree/main
👇
👇
👇
👇
本文同步自于知识星球《AGI Hunt》
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
ZeroGPT是一种高效准确的ChatGPT检测器和AI内容检测器,它可以检测AI生成的文本,包括ChatGPT文本或其他任何AI生成的文本。