除了深度换脸、模拟配音,还能口型匹配的AI软件出现了
发布时间:2024年06月06日
据海外媒体报道,上周一款名为LipDub 的翻译软件正式发布,这款AI程序可以让视频创作者在几分钟内使用不同语言进行交流。
LipDub由初创公司Captions开发,这家公司成立于2021年,由Gaurav Misra和 Dwight Churchill联合成立。Captions目前已经获得了红杉资本、安德森-霍洛维茨、Instagram联合创始人Kevin
Systrom和Mike Krieger以及Facebook前产品设计副总裁Julie Zhuo的投资支持。
创始人Gaurav Misra来自印度新德里,曾是Snap的设计工程主管。Misra表示,他的成长环境中充满了印地语、英语、旁遮普语和乌尔都语等各种不同的语言。而Gaurav Misra还花了数年时间学习法语,这帮助他在欧洲、非洲和中东建立了专业的关系网。
Misra相信,AI驱动的翻译和口型匹配技术可以帮助人们更轻松地联系和理解他人。
Captions:利用
AI 轻松实现视频翻译本地化
Captions以制作AI生成的字幕、语音纠正以及在后期制作中纠正视频创作者眼球位置的技术而闻名。Misra 和 Churchill 曾在高盛集团担任产品开发人员,他们早就想在配音翻译中加入口型匹配功能,但没想到会这么快实现。Misra说:“我们最初认为这项技术需要10年时间才能够实现,但现在的技术发展实在太快了,几乎每月甚至每周都有新东西出现。”LipDub正在进入一个很有前景的AI翻译市场。它的竞争对手包括语音克隆翻译应用 HeyGen 和Verbalate,以及Spotify和视觉特效工作室Monsters Aliens Robots
Zombies等公司推出的新工具。过去,许多企业需要聘请多个视频主持人用不同的语言表达同一个故事,而现在,他们可以通过生成式AI来实现同样的功能。这些应用程序允许用户上传视频,然后在几分钟内将其转换成流利的土耳其语、法语、阿拉伯语或意大利语。DeepMedia公司的创始人Rijul Gupta表示:“我们基本上已经完美地实现了这项新技术,任何人都可以克隆任何人的声音,并通过5秒钟的音频参考,让它用不同的语言说话。”在 X 和Reddit等网站上,一些知名人士的配音视频已经出现了数千次。Spotify 上个月也加入了这一行列,他们宣布将提供人工智能翻译的播客,让这些播客保持原本音色和语调的同时转换为不同的语言。目前,演员Dax Shepard和Kristen Bell、麻省理工学院研究员Lex Fridman和Steven Bartlett等人都有了西班牙语播客,法语和德语翻译也将很快推出。新的 Spotify 工具利用了OpenAI最新发布的语音生成技术,可提供更真实的听觉体验。去年年初,Misra和 Captions 的团队开始尝试口型匹配技术,并与合作伙伴测试该技术在Captions应用程序中的效果。Misra坦言,口型匹配技术发展速度比他预期的要快。“这看起来就像是自然地进入下一阶段,创造出一种不像是配音或者人工调整的视频。新的技术让视频看起来非常自然且易于理解。”从测试开始,一种新的可能性便已展示在他们面前。Misra表示:“就像我们以前在《星际迷航》中看到的那些科技一样,这简直就是科幻!”Captions今年6月获得了来自Kleiner Perkins 领投的2500 万美元的B轮融资。目前Captions 的日活跃用户已达10万,Misra认为LipDub推出后该公司将会拥有更多的活跃用户。目前LipDub 支持28种语言,包括韩语、西班牙语、捷克语、泰米尔语和乌克兰语,它采用零镜头模式,可以在Captions的视频生成模型在没见过主题的情况下推出流畅的视频。LipDubs的内部机器学习算法经过训练,可以识别讲话人的唇部动作,公司还使用 OpenAI 的GPT-4模型,在应用中将视频翻译成不同的语言和方言。这种 AI 配音技术已在Captions应用程序中使用,并于今年3月发布,吸引了来自世界各地的用户。Misra说:“原本无法接触到特定受众的人现在可以做到了。这项技术是乌托邦式未来的完美范例,所以我对此感到非常兴奋。”Misra认为,新技术的可能性是无穷无尽的。“我认为直播是一个非常可靠的案例。”Misra表示:“无论是 Twitch
上的游戏直播,还是不知名的演讲,这些类型的内容都可以通过 AI 轻易地本地化。”
HeyGen:想让不同语言的视频传播像打字一样简单
除了Captions,还有很多同类型AI翻译的公司,比如HeyGen。HeyGen 是一家拥有数百万用户的AI公司,是短视频内容AI口型匹配成和翻译领域最大的参与者之一。该公司在 9 月7日上线视频翻译功能后,在X上迅速走红。自此以后,数十个逼真的视频在网上疯传,用户分享了埃隆-马斯克、梅西和马克·扎克伯格用多种外语讲话的片段。Mark
Burginger是玩具公司Qubits的负责人,他曾在一个名为 "鲨鱼坦克"节目中推销他以STEM为中心的公司。出于好奇,他于 9 月13日试用了HeyGen的人工智能翻译功能。他在X上发布了一段自己用西班牙语说话的视频,尽管他并不懂西班牙语。"你能想象一家一年收入不到一百万美元的小型玩具公司能够使用这些价格相当低廉的工具吗?"Burginger说,他是一名艺术家和发明家,工作地点在北卡罗来纳州亨德森维尔,Burginger表示,“这有助于与大公司公平竞争。”HeyGen 的目标是"消除语言障碍",公司联合创始人兼首席执行官Joshua Xu说:"我们设想在未来,用不同语言制作视频内容和传播信息,就像打字一样简单"。在 X 上发布的一段人工智能生成的视频中,Xu补充说,Coursera、Khan Academy、和MasterClass等教育平台可以通过"多语言化"来扩大影响力。HeyGen 目前支持10种输入语言和8种输出语言,包括英语、西班牙语、中文、意大利语、印地语和日语等。HeyGen首席执行官Joshua Xu在创办原名为 Movio的 HeyGen之前,来自
Snap 的XU 和前字节跳动工程师Wayne Liang于2020年创办了Surreal。当时,Surreal提供逼真的“深度伪造”产品,“深度伪造”是一种视频合成技术,可以创作出以假乱真的合成视频。这种技术吸引了希望以更有效方式宣传产品的电子商务公司。Surreal在中国深圳启动运营四个月后,在一轮天使投资中获得了100万美元的投资。时至今日,Surreal仍活跃在中国,在中国的就业和大学网站上发布招聘和实习信息,但Surreal的HeyGen平台主要在洛杉矶运营,XU和Liang在洛杉矶工作。Movio 是一个基于Surreal引擎的AI视频平台,于2022年7月推出。据该公司称,其产品仅在7个月内就获得了100万美元的收入,之后
XU 和 Liang 将 Movio 更名为HeyGen,自2020年以来,HeyGen和Surreal已从红杉资本、IDG资本、真格基金和百度的风险投资部门百度风投(Baidu Ventures)获得了至少900万美元的融资。
被播客启发诞生的Verbalate
除了 LipDub和HeyGen之外,还有一个平台也在涉足该领域,Verbalate也能将用户的视频同步配音成目标语言。不同的是,Verbalate可以为长达30分钟的视频配音。据该平台创始人Grant Davies表示,Verbalate纯粹是因为疫情流行期间的无聊而诞生的。在2022年的一天,Davies在骑车时听到Joe Rogan和MrBeast的播客访谈。当时这位YouTuber提到,他的频道正在使用配音演员将视频配音成西班牙语、俄语、印地语、葡萄牙语等语言,因为全世界只有不到10%的人说英语。Davies当时正在研究AI技术,他们没撒航就觉得他们的团队肯定能够实现这个功能。Davies利用自己的营销网络向希望与海外员工沟通的企业客户介绍并销售Verbalate的服务。据悉尼一家外包公司OutSourced Staff的创始人Dom Procter表示:“对我这个销售和营销人员来说,它让我的生活变得更轻松。”他曾使用 Verbalate视频向亚洲或东欧的远程员工发送信息,Dom Procter指出:“用他们的母语制作内容,这改变了游戏规则。”Verbalate最基本的订阅计划每月9美元,允许用户创建一个10分钟长的视频,每分钟的额外费用为1美元。而HeyGen的创作者包月套餐每月29美元,可以制作多个视频,每个视频5分钟。其他平台则着眼于更大的市场和更长的视频播放时间。总部位于多伦多的 MARZ 公司主要通过其LipDub AI平台(并非 Captions 的LipDub)吸引对逼真配音感兴趣的电影和电视制作公司。LipDub AI 目前处理一分钟包含多个镜头的视频片段的运行时间不到20分钟。虽然该公司目前使用训练片段来制作这些配音,但它希望在年内通过放弃训练片段而只依靠音频和原始片段来加快处理速度。与其他配音平台不同,LipDub AI不使用大型语言模型,而是使用自己的生成模型,该模型在录音基础上进行训练。MARZ 市场总监Tim Reyes认为,口型合成技术将帮助制片人扩大电影或电视节目的影响力,同时又不会危及演员的工作保障。Reyes认为:“LipDub AI 实际上为新市场开辟了一大堆机会,这不像其他一些人工智能技术,他们破坏了电影业目前的工作流程。”除了开拓新市场,这些应用程序的创造者们还有更崇高的理想。Davies希望,像 Verbalate 这样的翻译程序能够打破人们对自己语言的隐性偏见,甚至培养一种更加全球化的思维方式。Davies说,在他的团队在 X 上分享的一个视频中,可以看到来自不同地区的人们用不同语言发表自己的观点,这帮助他思考人们是如何能够跨越国界进行沟通。Davies认为这有可能让人们变得更人性化一些,因为不同文化背景的人们可以更好地理解彼此"。Davies表示,即使是政治信息,用你自己的语言也会产生不同的效果,如果我们能够相互倾听,就有可能帮助人类。
出自:https://mp.weixin.qq.com/s/T8HMw7S2hGfRay3SXHf17Q
一个文字转视频的AIGC模型,Etna能够根据简短的文本描述生成相应的视频内容,支持生成时长为8-15秒的视频,且视频流畅度极高,每秒可达60帧。