如何免费打造自己的数字人主播:StableDiffusion插件SadTalker打造本地数字人主播
发布时间:2024年06月06日
Stable Diffusion是一个能够根据文本描述生成高质量图片的深度学习模型,它使用了一种叫做潜在扩散模型的生成网络架构,可以在普通的GPU上运行,还可以加载各种出图模型以及动画模型。Sadtalker是一个能够根据图片和音频生成视频的开源项目,它使用了一种叫做SadNet的神经网络,可以实现风格化的单图说话人脸动画。
本教程将介绍如何使用Stable Diffusion和Sadtalker结合起来,实现从文本到视频的生成。学会本教程之后,大家就可以在自己的电脑上免费用一张图片生成数字人口播视频。网上现在很流行一个小和尚讲人生哲学的视频都是基于这个技术打造的。下面我们就手把手教你如何在家自己免费打造属于自己的数字人播报官。
首先你得有一台不错显卡的电脑,然后下载stable diffusion 秋叶大佬的一键启动包,地址如下:https://space.bilibili.com/12566101。
接下来是上sad talker,地址如下:
https://github.com/OpenTalker/SadTalker
安装流程如下:
1.安装SadTalker插件:
打开stable diffusion 中扩展栏目,从网页下载sad talker插件,点击【扩展】-【从网址安装】,然后在git仓库网址里输入:https://github.com/OpenTalker/SadTalker.git,然后点击安装。下载完之后可以在已安装处检查会出现sadtalker的标志,如果有就下载成功了,如果没有可能是因为网络原因,多试几次,如果不行那就上gitup下载,并把下载后的插件放到sd栏目中的extensions文件中。
还有一种方法,可以直接使用国内代理的方式一键安装sadTalker:
https://ghproxy.com/https://github.com/OpenTalker/SadTalker.git
安装后,会生成
~\stable-diffusion-webui\extensions\SadTalker 这个文件夹。
2.下载模型
上面一步安装好了插件代码,还需要安装相关的模型,模型才是真正生成视频的关键。模型比较大,有两个checkpoint和gfpgan。
模型下载地址:
模型checkpoints, 提取码:
sadt.
https://pan.baidu.com/s/1nXuVNd0exUl37ISwWqbFGA?pwd=sadt
gfpgan, 提取码: sadt.
https://pan.baidu.com/s/1kb1BCPaLOWX1JJb9Czbn6w?pwd=sadt
下载完成后请将文件夹解压并放置到位置:\sd-webui-aki-v4\extensions\SadTalker,如图所示应有chekpoints文件夹里应有12个文件,并且将BFM文件和hub文件解压,这一步切记。
3.安装ffmpeg
ffmpeg是一款音视频编解码工具,同时也是一组音视频编码开发套件,作为编码开发套件,它为开发者提供了丰富的音视频处理的调用接口。他的安装比较简单,只需要下载压缩包,然后解压到某个目录,把路径加到环境变量即可。
首先打开ffmpeg官网:https://ffmpeg.org/download.html,下载对应系统的文件,这里以Windows为例:点击windows图标,选择Windows builds from gyan.dev;点击之后再点击进行下载,红框中的两个都可以。
Ffmpeg加压缩到某个目录,然后在windows环境变量中设置一下即可,注意添加的是ffmpeg的bin目录路径。
然后打开cmd,输入ffmpeg
-version,显示如下信息即为成功。
4.运行
打开StableDiffution,运行后在tab页签中会多出一个SadTalker页签,点击即可选择一个图片,选择一个音频进行生成了。想快速尝试的同学,可以直接在extentions/sadtalker/samples目录中找到相关素材。
5.其他
有教程中还说了要设置一下这个文件,如果有小伙伴运行不起来可以试试:
~\stable-diffusion-webui\webui-user.bat 参数修改
set COMMANDLINE_ARGS=--xformers
--disable-safe-unpickle
还有就是sadtalker此时其实可以独立运行的,只需要进入extentions/sadtalker目录,运行webui.bat即可。如果运行失败,是因为这里面python依赖环境写的可能有问题,你可以直接运行python webui.py即可。
希望这篇文章能帮助各位小伙伴,早日把自己的创意做出来,期待大家的作品哦。31998589@qq.com
如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。
彩云小译,兼具中日韩英同声传译、双语对照网页翻译、文献翻译、文档翻译、视频字幕翻译功能。