Kyutai 研究实验室今天在巴黎发布了 Moshi AI语音助手,一个能与人类进行自然对话的AI语音助手,可以匹敌OpenAI 的GPT 4o的语音能力。该语音助手由8人团队经过6个月的时间开发,具备独特情感和AI互动能力。
Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。
视频播放器
Moshi 的功能特点
- 语音交互能力:
- 自然对话:Moshi能够进行自然、流畅且富有表现力的语音对话,模拟人类的语音交流方式。
- 情感表达:其文本转语音(Text-to-Speech, TTS)能力在情感表达方面非常出色,能够呈现出丰富的情绪变化。
- 多功能应用:
- 教练和伴侣:Moshi可以用作个人教练或伴侣,提供指导、支持和互动,帮助用户在不同情境下获得个性化建议和陪伴。
- 角色扮演:具备角色扮演的能力,能够在互动过程中展现出极强的创造力和灵活性,适用于游戏、教育等场景。
- 实时互动:
- 即时响应:在演示和互动过程中,Moshi能够快速响应用户的语音指令和提问,提供流畅的互动体验。
- 高效多模态处理:
- 多模态学习和推理:Moshi具备处理和理解多种类型内容(如文本、声音、图像等)的能力,能够在不同内容之间进行有效的学习和推理。
- 技术开放性:
- 代码和模型公开:Kyutai将公开Moshi的代码和模型权重,使研究人员和开发人员能够自由使用、改进和扩展这项技术。
- 本地运行:Moshi可以本地安装和运行,确保在无网络环境下的安全性和稳定性。
在线申请测试:https://www.moshi.chat/
关于Kyutai
Kyutai是一个致力于AI开放研究的非营利实验室,由Iliad集团、CMA CGM和Schmidt Sciences于2023年11月成立。初创团队由六名顶级科学家组成,他们都曾在美国的大型科技实验室工作。Kyutai继续招聘顶级人才,还为研究硕士学位学生提供实习机会。现在该团队已有12名成员,并将在年底启动首批博士论文研究。研究探索新的一般用途模型,具备高能力。实验室目前特别研究多模态模型,即模型能够利用不同类型的内容(文本、声音、图像等)进行学习和推理。所有开发的模型、软件和实现其创建的技术知识都将免费分享。为开展工作和训练模型,Kyutai特别依赖Iliad集团子公司Scaleway提供的Nabu 23超算节点。
限时免费的LoRA炼丹炉!更全、更热门的素材,为所有AI绘画者提供更得心应手的平台,持续深耕专业领域。