首页 > Ai资讯 > Ai日报 > Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达

Moshi:实时语音到语音生成 Transformer 开源模型 160毫秒低延迟 支持随时打断和情感表达

发布时间:2024年09月24日

Moshi 是一个多流(multi-stream)的实时语音到语音生成 Transformer 模型,支持全双工语音对话。它的主要特点是可以同时进行语音输入和输出(全双工),能够处理复杂的对话场景,包括重叠的语音、打断和情感表达等非语言信息。

这意味着它可以同时听和说,旨在解决传统对话系统中的一些问题,如延迟、非语言信息的丢失(例如情绪)以及对话轮次的僵化结构。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。