一款构建AI数字人项目开源了!自动实现音视频同步!
发布时间:2024年06月06日
本周GitHub项目圈选: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。
1、Video-Tetalking
Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说,就是输入任意一个视频和一个音频文件,在生成的新视频中,人物的嘴型会与音频同步。
它不仅可以让嘴型与声音同步,还可以根据声音改变视频中人物的表情。整个过程不需要用户干预,都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人,是不是很有意思。
Star量:2.5K+
在线体验:https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb
项目地址:https://github.com/OpenTalker/video-retalking
系统为实现这一目标,分解为三个连续的任务:
·
具有规范表达的人脸视频生成;
·
音频驱动的口型同步;
·
面部增强以提高照片真实感。
给定一个头部说话的视频,首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情,从而产生具有规范表情的视频。
然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。
最后,通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。
以上所有三个步骤都使用基于学习的方法,并且所有模块都可以在顺序管道中处理,无需任何用户干预。
2、Autogen
Autogen 是微软团队研发的一个多代理框架,利用它可以轻松定制一系列工作任务,简直太强大了。
Star量:14.2K+
项目地址:https://github.com/microsoft/autogen
举一个例子来说,我们要实现一个爬虫程序,抓取并保存网页图片。如果把这个任务丢给 ChatGPT,它会直接返回一串可执行代码,但是代码通常会存在问题,例如执行报错、缺少依赖等,你需要反复跟 ChatGPT 对话来完善程序。
当然,我们也可以设定一个复杂 Prompt,要求它调用 ChatGPT 的代码执行插件,如果存在报错,则继续修正程序。(案例来源:Barret李靖)
但是这个任务如果交给 AutoGen 来实现,将会变得无比简单,几行代码就可以搞定:
·
定义一个 Assistant
Agent,它的任务是解决问题
·
定义一个 UserProxy
Agent,它的任务是替代人询问问题,同时在本地执行程序
这两个 Agent 都不需要给他们设置
Prompt。当我们把爬虫任务交给 UserProxy 后,它会理解任务, 然后询问 Assistant 应该如何做,Assistant 会把操作过程告诉 UserProxy,接着 UserProxy 会根据指示在本地安装依赖,然后创建文件执行代码,如果执行出现错误,它会把详细报错提交给 Assistant,依次循环,直到可以获取到最终的结果。 任务结束的时候,你会看到目标图片已经保存到本地磁盘了。
3、shap-e
shap-e 是OpenAI(ChatGPT开发商)开源的一款新模型,用来生成以文本或图像为条件的 3D 对象。以其创新方法改变了 3D 应用领域。允许用户在计算机上无缝运行它,而无需 OpenAI API 密钥或互联网连接。
Star量:10.5K+
项目地址:https://github.com/openai/shap-e
下图便是“An airplane that looks like a banana”
的 3D 图。而它的使用也非常简单,安装一个包即可:
pip install -e .
该项目最好搭配3D设计器一起使用!对于3D设计师非常有帮助。
4、Slidev
Slidev 是一款专门为开发者打造的演示文稿工具。通过Slidev,我们只要使用熟悉的Markdown就可以做出炫酷的PPT来,同时拥有支持HTML和Vue组件的能力,并且能够呈现像素级完美的布局。
Star量:28.5K+
官方地址:cn.sli.dev
项目地址:https://github.com/slidevjs/slidev
出自:https://zhuanlan.zhihu.com/p/664208703
FootageCrate这个网站主要提供的是免费无版权可以商用的视频特效素材。