AI视频新技能!这套流程教你打造视频人物和声音完美同步!
发布时间:2024年06月06日
这个视频中人物的身体姿势、头发、头部姿势、面部表情都在发生运动,看了上面的视频后,群里一位朋友问如何实现视频中的人物口型与音频的完美同步,以及当前可行的方法。原文主要介绍的是Midjourney的内容,所以没有详细谈及这个问题,本文将就这个问题展开讨论。
目前,在AI生成视频这个环节,已经发展的越来越快,各种技术也越来越成熟,从文字直接生成视频已经可以快速实现下面这样有复杂场景的视频,再结合更完善的故事脚本、对话,更复杂的视频效果都是可以畅想的。
但目前的AI视频尚未解决视频和音频结合的问题,让人物的嘴与音频完美同步仍然具有挑战性。实现此目标需要后期处理来混合音频和视频,使它们协同工作。目前有几种解决方案,包括D-ID、HeyGen和Wav2Lip。
D-ID:https://studio.d-id.com/
HeyGen:https://app.heygen.com/home
如果你只需从单张图片生成与音频同步的视频,且对人物动作没有太多特殊要求,那么D-ID和Heygen是两种可行的选择。D-ID是目前网络上最常用的方法之一,功能也比较单一,只需上传一张图片,输入文字和选择音色,即可生成相应的视频。
HeyGen功能更加强大,效果更为出色,适用范围更广泛,且对图片尺寸和比例的要求不那么苛刻。对于免费用户,HeyGen会定期赠送试用点数,以便生成更多的视频,总时长可达1分钟。该工具不仅生成嘴部运动的视频,还在头部区域呈现出匹配的变化,包括眼睛、头发和口腔细节,清晰度也非常高。
然而,HeyGen的限制在于只能使用系统提供的声音角色。如果你想使用自己的声音或其他特定的声音,需要按照之前文章《史上最强!五分钟创建你的数字分身!新版HeyGen 2.0快速上手教程!》中介绍的方法来训练自定义角色。但每位免费用户只能训练一个角色,如果需要多个演员的声音,免费版将无法满足需求。这时,我们建议考虑使用第三种方法:Wav2Lip。
Wav2Lip是一种神经网络,可以根据语音输入实现视频中人物嘴部的准确同步。它适用于任何身份、声音和语言的视频,甚至可以用于CGI人脸和合成声音。该技术的原理是使用口型专家网络来预测每一帧的口型,然后通过生成对抗网络来提高视频的视觉质量。其主要优点在于实现高精度、低延迟和无需人工标记的视频口型同步。
这项技术早已问世,有两个版本:高精度的口型同步模型Wav2Lip和视觉质量更佳的生成对抗模型Wav2Lip_GAN。它可以以多种方式使用,包括本地安装、Stable Diffusion插件、Colab版以及在线演示版。
在线Demo:
http://bhaasha.iiit.ac.in/lipsync/
https://lip.aifilm.tech/#/
推荐使用第二种在线版,只需准备一个包含人脸的视频和一个包含语音的音频,上传后即可快速合成。演示版的缺点是合成的视频分辨率较低,下面这个视频是演示版的效果:
想要更高分辨率可以使用Colab版:https://colab.research.google.com/github/eyaler/avatars4all/blob/master/melaflefon.ipynb
还可以使用针对Stable Diffusion的插件:
https://github.com/numz/sd-wav2lip-uhq/blob/main/README_CN.md
上面的网址有详细的安装和使用教程,我这里就不多做介绍了。这些方法使用过程都不复杂,但对于有较大幅度运动的视频,如果想最终的效果更好一些,我们还需要对原视频和生成的说话视频进行叠加合成。可以使用剪映软件,如下图所示给说话视频增加一个遮罩,只保留嘴部的内容,其他内容使用下层的原始视频。
视频放大
合成后的视频如果还想提高分辨率,推荐使用剪映的海外版,也就是Capcut.com网站的视频放大功能。
网址:https://www.capcut.com/magic-tools?from_page=work_space
第二行第四个就是视频放大功能,直接上传视频,选择新的分辨率,即可快速完成视频放大。以上就是大致的完整流畅,由于涉及多个环节和软件,过程有些繁琐。
展望下个阶段的AI视频技术发展,一定会出现新的解决方法,也就是在视频生成界面,直接输入文字,选择音色,AI即可生成有完整配音的视频。相信这个时间也不会太久。大家可以继续关注这方面的进展。想更快掌握最新AI技术的应用,欢迎加入我的公众号专栏《AIGC从入门到精通专栏》,及时获取最新技术和教程。
出自:https://mp.weixin.qq.com/s/gPINGZ25rH7XVjZ7_PVCJw
Khroma 一个AI人工智能配色方案在线生成器,Khroma利用人工智能,通过分析你选择的颜色,来生成实用性非常高的调色板的配色工具。