首页 > Ai资讯 > Ai知识库 > 腾讯最新的人像写真工作PhotoMaker

腾讯最新的人像写真工作PhotoMaker

发布时间:2024年06月06日

眼尖的我,昨天在腾讯git上发现了这一个新的项目,没开源但是现在有论文。

不仅能输入少量真人照片做写真,还能输入绘画类形象、雕塑形象,根据这个形象出图。

还能输入两个图片,融合他们的长相,即使是真人照片+漫画也完全ok。

 

项目主页:https://photo-maker.github.io/

不过,这个项目主要是为了生成写实人像的哈,虽然能处理非写实的数据,但是生成的图还是针对写实人像的。

大概讲了什么,说几条比较关键的。

输入图像的处理?用随机噪声填充了身体部分和背景,为了消除非脸部的图像区域影响。

训练clip图像编码部分。由于用于原始clip的数据大部分是自然图像,为了更好地提取脸部特征,对这部分模型参数进行了微调。

在文本输入上做文章,把man和woman这种单词与文本embedding结合,得到一个融合后的向量,这个向量会与图像embedding做融合。

会把同一个人脸的多个图像向量拼接起来训练,但是测试时可以拼接不同的人脸,所以可以有融合的效果,非常灵活。

为了原始的sd模型能够更好地感知这些人脸信息,训练了attention层的lora。

主要技术是这些,后面还讲了摄影师训练的工作流,包括如何处理图像数据之类的,感兴趣可以看看原文。

这工作看起来非常nice呀,期待一下,比facechain那些有更大的改进,目前看好photomaker

 

 

 

出自:https://mp.weixin.qq.com/s/2g47AuKcNyLWqVstb5306Q