首页 > Ai资讯 > Ai日报 > Sonic:基于状态空间模型的低延迟实时推理语音生成模型

Sonic:基于状态空间模型的低延迟实时推理语音生成模型

发布时间:2024年06月01日

Sonic 是一个快速、超逼真的语音生成模型,专为实时互动语音而设计,基于下一代状态空间模型(State Space Model)构建。由Cartesia AI开发,实现了市场上最快的文本到语音转换,端到端延迟小于200毫秒,模型延迟135毫秒,提供给用户实时推理。可以用来构建高质量、实时的语音体验,提供多样化的语音库、即时语音克隆、语音混合以及速度和情感控制的语音设计功能。

  • 极快的速度延迟仅为135毫秒,确保实时响应。
  • 高吞吐量使用首创的状态空间模型推理栈,支持高并发和低成本推理。
  • 超逼真语音基于全新的状态空间模型架构,生成富有情感和表达力的真人语音。
  • 零样本语音克隆只需10秒的录音即可匹配语调、抑扬顿挫和声线特征。
  • 可控参数用户可以调整音高、语速、情感、发音和速度,实现个性化语音设计。

功能特点

Sonic 是 Cartesia 最新�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。