首页 > Ai资讯 > Ai知识库 > SD3 正式开源 Sora同源架构

SD3 正式开源 Sora同源架构

发布时间：2024年06月06日

110

2月16日伴随着OpenAI世界大模型Sora的发布，stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向，一个是图像生成方向，那么两者没有必然的联系，但Sora和Stablediffusion3的架构是出奇的一致，核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。本次模型参数量不是很大就当8-12G起吧

SD3的更新特点

采用Diffusion Transformer（DiT）架构：Stable Diffusion 3.0采用了与Sora相同的DiT架构，这种架构设计使得系统的扩展性更强，能够处理多种类型的输入数据

支持生成视频、3D内容：Stable Diffusion 3.0发布时，将包含一套完整的工具，支持生成视频、3D以及更多类型的内容创作

模型参数量的增加：从之前的800M参数升级到8亿参数量，这意味着新的模型能够为用户提供更多扩展性选择，同时生成的图片效果更加惊人

图像质量的提升：Stable Diffusion 3.0在图像质量和色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强

今天收到邮件即将在下周三进行模型放出，如果想要商用记得填写申请许可证申请。

确定了Stablediffusion3与Sora的架构是一致的

Stable Diffusion 3 Medium，我们最先进的文本到图像即将推出！从6月12日下周星期三开始，您将能够在Hugging Face上下载重量。

SD3 Medium 是一个 20 亿参数的SD3 模型，专门设计用于在以前模型难以解决的领域表现出色。以下是一些突出的功能：

·照片级真实感：克服手部和面部的常见伪影，无需复杂的工作流程即可提供高质量的图像。

·字体排印学：在排版方面取得稳健的结果，优于更大的最先进的模型。

·性能：由于其优化的尺寸和效率，非常适合消费者系统和企业工作负载。

·微调：能够从小型数据集中吸收细微的细节，非常适合定制和创意。

https://stability.ai/

GLM4 开源了！！！还有多模态有感情的语音合成开源模型：ChatTTS安装使用详解

最新工具