“实时”语音翻译!AI语音具有“情绪”!最强开源AI大模型来了
发布时间:2024年06月06日
这次AI要革翻译的命了么?!(先别急着骂,我们先看看产品)
你是否遇到过这样的情况:
你想和一个说不同语言的人交流,但是你不会他的语言!
你想把一段语音转成文字,或者把一段文字转成语音,但是你不知道怎么操作!
你想把一种语言的语音或文字直接转换成另一种语言的语音或文字,但是你需要用多个工具,而且效果不理想!
如果你有这样的困扰,那么你一定会对meta的开源AI模型seamless-communication感兴趣。
这是一个由meta(原Facebook)开发的人工智能模型,这是一个致力于让人们可以跨语言交流、消除语言障碍的AI大模型。它可以实现多种语音和文字之间的转换和翻译,而且只需要一个模型,就可以支持近百种语言,效果也非常出色。
下面是官方介绍
seamless-communication是什么?
SeamlessStreaming是一个基于深度学习的模型,它可以完成以下几种任务:
语音到语音翻译(S2ST)、语音到文字翻译(S2TT)、文字到语音翻译(T2ST)、文字到文字翻译(T2TT)、自动语音识别(ASR)。
这些任务都可以用一个模型来完成,而且模型可以自动识别输入的语言,不需要用户指定。模型支持的语言也非常多,包括:语音输入(101种语言);文字输入/输出(96种语言);语音输出(35种语言)。
它有哪些绝活?
1、保留情感,无缝表达
现有的翻译工具能够熟练地捕获对话中的内容,但它们通常依赖于单调的机器人文本转语音系统来进行输出。SeamlessExpressive 旨在保留语音的复杂性;例如停顿和语速,以及声音风格和情绪基调。下面是官方示例
英文输入:耳语。
请把音量调小。我们只是让宝宝睡觉。
耳语,AI变革指南,3秒
英文输入:悲伤
请不要离开。我讨厌独自一人在这里。
耳语,AI变革指南,3秒
2、接近实时的语音翻译!
SeamlessStreaming 是第一个大规模多语言模型,它提供大约两秒延迟的翻译,并且与离线模型几乎具有相同的准确性。SeamlessStreaming支持近100 种输入语言和 36 种输出语言的语音到语音翻译。下图为官方介绍
seamless-communication如何做到的?
seamless-communication是基于神经网络的模型,它使用了多种技术,融合了SeamlessM4T v2 多语言性、SeamlessStreaming 的低延迟性、 SeamlessExpressive 的表达保存功能。这是第一个同时保持声音风格和韵律的流式翻译模型。
最后的结束语
看了Meta最新AI的效果,你觉得开始所说的翻译会被AI取代是个笑话吗?也许目前看它还不够优秀,无法替代专业的翻译。但是随着技术不断迭代进步,日常生活的大多数场景我相信AI都会胜任。而且只需要一个模型,就可以支持近百种语言,效果也非常出色。在广度上,任何人类都无法和AI相比。
说起来很有趣,我们最初以为AI会代替那些人类不爱做的工作,比如清洁和体力活。结果AI浪潮来了之后,率先被影响的竟然是绘画等高薪岗位。
好了,今天就聊到这。有感兴趣的可以去官网体验,下载。
代码地址:
https://github.com/facebookresearch/seamless_communication
论文地址:
https://ai.meta.com/research/publications/seamless-multilingual-expressive-and-streaming-speech-translation/
在线体验:
https://seamless.metademolab.com/expressive/?utm_source=metaai&utm_medium=web&utm_campaign=seamless&utm_content=technical_page
官网介绍:
https://ai.meta.com/blog/seamless-communication/
好了,今天的内容就分享到这里希望你们喜欢!
出自:https://mp.weixin.qq.com/s/vRvEttUj55IIUm3z0kxBXA
专注提供Pr免费素材