首页 > Ai资讯 > Ai知识库 > 说真的,SDXL究竟藏着多少秘密,也许没人知道

说真的,SDXL究竟藏着多少秘密,也许没人知道

发布时间:2024年06月06日

我是真的没想到,SDXL发布后,我围着它写了三篇文章。

我更没想到的是,写文章的间隙,我还是在围着它转圈圈。

探索功能,线上部署,更新工作流……我只想告诉你,SDXL不是一个绘图模型那么简单,在它里面,隐藏着太多不为人知的秘密。

跟上次一样,这篇文章没有任何标题党,也不制造任何焦虑,我只是想告诉你我看到的东西,那些正在发生和即将发生的事情。

1. 为什么SDXL存在着隐藏属性

在解释这个问题之前,我们先拿GPT举例子。

众所周知,今天我们看到的生成式对话人工智能,包括GPTBard以及一众追随者,他们都是用大量文字“喂养”出来的庞然大物。

正所谓读书百遍,其义自见。AI虽然并不是真的从心理上明白你在说什么,但毕竟它已经背诵了人类有史以来的所有文献书籍,光靠猜,它也能一本正经的跟你胡说八道,看上去居然还有些道理。

同属生成式的AI绘图也不例外。与GPT不同的是,后者认字,前者识图。

但凡你炼过LoRA就不难理解:准备20张左右主题鲜明,背景干净的图,伴随着GPU的一阵咆哮,一个小模型就此诞生,从此数字世界又多了一种可以快速呈现的图形风格。

如果仅仅20张图片就能做到这样的效果,很显然,拥有着35亿参数的SDXL记下了海量图库,它能复现(瞎猜)的图像,同样是难以估算的天位数字。

以下这些信息,只是冰山一角。

2. 数字和单词

上篇文章已经提到过这件事,具体来说,你可用这样的提示词来描述:

画面主体+写字的地方+
Text/saying/writing/printing
+ “单词/数字”

举几个简单的例子:

1girl hold a paper with
text"2023"

1boy,solo,wearing a Tshirt
printing"Hello World",

ad billboard with text"Coca
Cola",1coca cola logo,

迫不及待想尝试一下?先别急,分辨率请先了解一下。

3. 画人物的分辨率

来自社群小伙伴@孙吾饭 168 的分享:

SDXL 人物变形修正,使用如下分辨率参数

1024x1024(1:1)

704x1408(1:2)

832x1152 (接近3:4)

768x1344(接近9:16)

640x1536(接近9:21)

比较容易误用的分辨率: 1024x1536,这是根据过去512x768的习惯沿用过来,想要同样的比例生成图片,应该用704x1408会获得更好的效果

浓郁的Midjourney味道不是吗。

4. 自带了多少logo

你可能会觉得这个问题有点奇怪,是的,我一开始也是这么想:指望SD直接画logo不是个通用需求,随便搜一下网图就够了。

直到某次尝试,我随手编了套提示词:

(photorealistic:1.4),logo of company
toyota,white background

我本来以为只是个意外,随手改了品牌:

(photorealistic:1.4),logo of company
VOLKSWAGEN,white background,

接下来,还有这些

如果你把世界500强公司名称输进去,你大概率会看到它能在一定程度上复现这家公司的logo——区别在于,越是直接面对消费者的公司,logo复现程度越高。

或者换句话说,广告打的越多,AI获取的直接素材就越多,那么完整复现的概率就越大。

很可惜的是,对于国内公司的品牌logo,除了部分全球知名的品牌,其他复现的程度比较低。这会不会是一个补充内容的机会?

(photorealistic:1.4),logo of company
huawei, white background,

如果你问关注画logo是为了什么,那当然是为了做广告啊。

你发现了吗,到目前为止,我都没有写反向提示词,因为根本不需要!甚至连masterpiecebest quality这些常用起手式,一次都没写。

别着急,咱们才讲了一半,请继续往下看。

5. 自带了多少商品特征?

这恐怕是个难以穷举的问题,要知道作为AI出图的特征之一,每张图都有对应一系列设定的唯一seed,有点像图片身份证的意思。

Seed的数字可以到十位数,也就是说,仅仅对应一套设定,就有10亿种各不相同的可能。

具体到SDXL这里,如果你在尝试上面的logo复现,你一定会在不经意间看到品牌+产品同时出现。

比如提示词:

(photorealistic:1.4),logo of company
tesla,white background

有概率会出现:

进一步,你可以尝试提示词:

1car of Tesla model3, 1Tesla
logo,solo,side view

出图:

说真的,要不是亲眼所见,我是不会相信在没有插件或者LoRA的帮助下,主模型仅用提示词就能做出这种效果。如果贴上个logo,是不是一款简约的海报就出炉了。

对了,logo自然也是能直接生成的:

更进一步,为了满足我的好奇心,我用XYZ脚本跑了一系列车企品牌对比:

(photorealistic:1.4),1car of
toyota,1toyota logo,solo,side view,

Negative prompt: bad-picture-chill-75v
BadDream badhandv4 EasyNegative FastNegativeV2 ng_deepnegative_v1_75t
UnrealisticDream,

Steps: 25, Sampler: Euler a, CFG scale: 7,
Seed: 1830121956, Size: 1440x1024, Model hash: 31e35c80fc, Model:
sd_xl_base_1.0, Clip skip: 2, ENSD: 31337, Version: v1.5.1

脚本的设置如下图所示。具体的意思是提示词中的“toyota”会依次被列举出的其他词逐一替代,并且每个词都会执行一遍出图,最后形成一个长条形对比图

然后你就会看到下面这个样子(建议点击看大图)

随便放大一张:

这出图质量,你说它是汽车品牌官网图也并不过分。

同样的方式,你会发现,外资品牌出图表现比较稳定,而对国产品牌并不那么友好,至少在车辆这个品类上是这个情况。

再往前一步,你可以换成不同的产品/品牌提示词对比出图,这完全取决于你的想象力天花板。我只想提醒你,出图很花时间,切记到点睡觉,不要熬夜伤身。

插件上线之后,SD直出品牌广告/电商广告图,很可能不会像现在这样麻烦。

还有refiner这个模型,篇幅太长,留到下次再讲吧。

最后,我们的云端SD已经更新了SDXL模型。在80GA800 GPU支撑下,2K出图毫无压力。

没有胡里花哨的概念,我们只想做一款人人都能用得上的专业AI产品,让AIGC这个概念,成为看得见摸得着的生产效率工具。

在我们建立的SD社群里,只做三件事:

不断分享Stable Diffusion使用技巧,聆听各位对云端SD的建议和反馈,以及每周发放的免费体验券。

所以,再一次,欢迎你来见证我们成长的每一步。

出自:https://zhuanlan.zhihu.com/p/648075356