首页 > Ai资讯 > Ai日报 > Hume AI发布其情感智能的语音接口 EVI API 可集成到任何应用中

Hume AI发布其情感智能的语音接口 EVI API 可集成到任何应用中

发布时间:2024年05月18日

Hume AI发布了他们的EVI API,这是世界上第一个情感智能的语音AI接口。EVI API可以将情感智能语音体验集成到任何应用程序中,它接受实时音频输入,并返回带有情感表达度量的生成音频和文字转录。

这个API的推出引起了广泛的关注,因为仅通过演示,就已经有约100,000次对话,显示出用户与这种新型AI的深度连接。这些对话的平均长度为10分钟,涉及约300万条用户消息。(此前介绍:Hume AI发布情感感知对话AI:EVI 能理解用户的情感状态和意图

1、情感表达的集成

  • 情感音调生成: EVI能够分析用户的语音中的语调、节奏和音色,并据此生成具有相应情感色彩的响应。
  • 它可以使AI的语音不仅信息传递准确,还能够表达如兴奋、关切或好奇等多种情绪。

2、实时音频处理

  • 双向对话支持: EVI通过WebSocket连接实现实时的音频传输和响应,支持流畅的双向对话。用户可以直接与EVI进行语音交互,系统能够即时解析并生成情感化的回复。
  • 允许开发者通过WebSocket连接自己的文本生成服务器,自行控制EVI在对话中的所有消息。

3、语音转写与语言建模

    • API不仅支持将语音转写成文本,还能进行复杂的语言建模,这有助于理解和生成更准确、更自然的语言。

4、高度可配置性

  • 个性化定制: 开发者可以配置EVI的多个方面,包括语音的选择、响应的风格和内容等。通过API或用户界面(UI),可以调整系统提示、使用的大型语言模型(LLM)等,以适应不同的应用场景。
  • 多声音选项: EVI提供了不同的声音选项,允许开发者根据目标用户群体的偏好选择合适的声音,包括男声和女声,并计划未来扩展更多声音库。
  • 快速高效的语音界面语音交互的速度比打字快四倍,信息量是打字的两倍,这使得EVI API在需要快速、高效信息交换的应用场景中具有明显优势。

5、端到端语音交互

  • 中断性和轮次结束检测:具备识别对话中何时可以中断发言者以及何时轮次结束的能力,能够在适当的时候插话或停止这使得对话流畅自然,提升了用户交互体验。

6、情感同理心大语言模型(eLLM)

  • 情绪感知回应: EVI结合了Hume的情绪模型和大语言模型,能够根据用户的情绪表达生成同理心回应,如对挫折感到歉意,对悲伤表达同情等。
  • 支持将其他大语言模型的响应注入EVI,如Fireworks Mixtral8x7b、所有OpenAI模型和Anthropic模型,为开发者提供了极大的灵活性。

7、应用场景:

    • EVI非常适合需要情感交互的应用场景,如客服机器人、虚拟助手和互动游戏等。
    • 它可以根据用户的情绪反应灵活调整语调,提供更加人性化的用户体验。

详细:https://www.hume.ai/blog/introducing-hume-evi-api

API申请:https://beta.hume.ai

在线体验:https://demo.hume.ai/

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。