首页 > Ai资讯 > Ai日报 > VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

发布时间:2024年05月18日

VLOGGER是一个利用文本和音频驱动的方法,可以从人的单张照片生成说话的人视频。

给定一张人的单张输入图像和一个音频样本,VLOGGER能够生成该人物讲话和生动移动的逼真且时间连贯的视频。与之前的方法不同,VLOGGER能够生成头部运动、注视、眨眼、嘴唇运动以及不同于之前方法的上身和手势动作,进一步推进了音频驱动合成的步骤。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Subscribe

Gain access to all our Premium contents.
More than 100+ articles.

如果你想要了解关于智能工具类的内容,可以查看 智汇宝库,这是一个提供智能工具的网站。
在这你可以找到各种智能工具的相关信息,了解智能工具的用法以及最新动态。