首页 > Ai资讯 > Ai知识库 > “实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了

“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了

发布时间:2024年06月06日

这次AI要革翻译的命了么?!(先别急着骂,我们先看看产品)

你是否遇到过这样的情况:

你想和一个说不同语言的人交流,但是你不会他的语言!

你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!

你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!

如果你有这样的困扰,那么你一定会对meta开源AI模型seamless-communication感兴趣。

IMG_256

这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。

下面是官方介绍

1708664305627

seamless-communication是什么?

SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:

语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。

这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入101种语言);文字输入/输出96种语言);语音输出35种语言

它有哪些绝活?

1、保留情感,无缝表达

现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例

英文输入:耳语。

请把音量调小。我们只是让宝宝睡觉。

耳语,AI变革指南,3

英文输入:悲伤

请不要离开。我讨厌独自一人在这里。

耳语,AI变革指南,3

2、接近实时的语音翻译!

SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近100 输入语言和 36 输出语言的语音到语音翻译。下图为官方介绍

1708664356939

seamless-communication如何做到的?

seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。

IMG_257

最后的结束语

看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。

说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。

好了,今天就聊到这。有感兴趣的可以去官网体验,下载。

代码地址:

https://github.com/facebookresearch/seamless_communication

论文地址:

https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/

在线体验:

https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page

官网介绍:

https://ai.meta.com/blog/seamless-communication/

好了,今天的内容就分享到这里希望你们喜欢!

出自:https://mp.weixin.qq.com/s/vRvEttUj55IIUm3z0kxBXA