通过Stable-Diffusion插件SadTalker可以将静态的图片加上音频,生成一段视频。根据插件介绍就是“单人像图像+ 音频=会说话的头像视频”。当然市面上也有很好用的AI工具,例如D-ID,通过D-ID这个强大的工具去实现这个功能,但是D-ID是需要付费使用。
SadTalker工具既可以单独本地安装运行,也可以在Stable-Diffusion运行,本次主要介绍在Stable-Diffusion-WebUI中运行SadTalker插件的安装、下载、介绍以及使用,如果你想独立使用SadTalker,可行查看github文档。
我们打开Stable-Diffusion-WebUI界面后,点击扩展-从网址安装,复制并粘贴git仓库网址:https://github.com/OpenTalker/SadTalker.git,点击安装后,Stable-Diffusion-Webui会自动获取安装信息,安装成功后我们需要重启Stable-Diffusion-WebUI。
安装成功后,我们就可以在Stable-Diffusion-WebUI界面中看到SadTalker插件了,如果没有显示SadTalker插件可以重新安装一次即可。
安装好SadTalker插件后,我们需要在/extensions/SadTalker/目录下,新建文件夹checkpoints,然后下载SadTalker插件运行必备的程序,没有这些程序运行时会报错(程序下载可访问:https://github.com/OpenTalker/SadTalker/releases),下方截图中框选的10个文件都需要下载。
下载文件完成后,2个zip压缩包文件需要解压(解压在当前文件夹内即可),解压完成后2个ZIP文件删除即可,这些文件都需要放在新建的checkpoints文件夹内。
我们简单介绍一下SadTalker插件中的具体功能项,SadTalker左侧主要是上传图片、上传音频文件以及从文生图获取图片(load From txt2img)、从图生图获取图片(load From img2img)。
右侧主要是生成模型的选择、移动头部运动以及面部修复(建议勾选上),不同的模式、不同类型的图片都会产出不同的效果,建议大家多多尝试,也可以查看一下帮助文档(https://github.com/OpenTalker/SadTalker/blob/main/docs/best_practice.md)
接下来我们实际操作一下SadTalker插件的使用,看看最终生成的效果如何。
首先我们从文生图(txt2img)生成一张人物图片,由于是测试效果,这里我们就生成512*512尺寸的图片。
在SadTalker插件中,我们点击load From txt2img获取图片,接着上传一段音频文件。
音频文件上传成功后,我们可以在WebUI听一下音频文件是否有异常,这里生成视频花费的时间与音频时长有关,大家根据自身显卡的情况选择适当的音频长度。需要注意的是,这里上传的音频格式需要wav格式,我使用mp3、m4a都失败了。
我们选择crop,勾选Face enhancement后,点击生成,如果
若在生成视频时,直接跳出错误,大概是文件没有下载,大家先去下载必须得程序文件。
点击生成后,若有看到这样的进度跑起来了,基本就说明成功了
由于我使用AutoDL运行的Stable-Diffusion-WebUI,最终生成的文件无法正常合并成视频,但是可以在文件夹中找到对应的音频文件和人物视频文件,只需要把视频和音频合并即可。
若是在本地运行的Stable-Diffusion-WebUI在WebUI的窗口即可进行预览效果了(大家可以自行尝试一下哦)
目前插件效果还有待提升,相信随着制作人员的更新,后续会越来越好用的,大家可以持续关注。
你不可错过的好内容:
《使用Autodl进行云端部署Stable-Diffusion-WebUI超详细教程!》
https://huke88.com/article/8078.html
《Autodl中运行Stable-Diffusion-webui 大模型/LoRA模型下载教程》
https://huke88.com/article/8079.html
《Stable-Diffusion小知识:什么是LoRA模型?》
https://huke88.com/article/8081.html
《Stable-Diffusion小知识:什么是VAE模型?》
https://huke88.com/article/8085.html
《Stable-Diffusion小知识:采样方法(Sampler method)和采样迭代步骤(steps)》
暂无评论
违反法律法规
侵犯个人权益
有害网站环境