与 Midjourney 开战，Stable Diffusion XL 0.9 重磅发布，35 亿 + 66 亿双模型，AI 图像生成飞跃式进步

新智元
2023-06-25 17:21

虽然此前 CEO 曾陷入种种争议，但依然不影响 Stability AI 登上时代杂志。近日，该公司又发布了 Stable Diffusion 的 XL 0.9 版本，35 亿 + 66 亿双模型，搭载最大 OpenCLIP，让 AI 生图质量又有了新的飞跃。

Stable Diffusion 又双叒升级了！

最近，Stability AI 发布了最新版的 Stable Diffusion XL 0.9（SDXL 0.9）。

比起之前的模型，这波更新在图像和构图细节上，都有了质的飞跃。

尤其是在参数上，这次的 SDXL0.9 具有 35 亿参数基础模型和 66 亿参数模型的集成管线。相比之下，Beta 测试版仅用了单个 31 亿参数的模型。

为了生成更逼真的图像，以及更大的深度和更高的分辨率（1024x1024），SDXL 0.9 使用了两个 CLIP 模型，包括迄今为止最大的 OpenCLIP 模型（OpenCLIP ViT-G / 14）。

不仅如此，SDXL 0.9 在消费级显卡上就能运行。只需要 Win10/11 或 Linux 操作系统、16GB 内存，以及具有 8GB 以上显存的英伟达 RTX 20 系显卡即可。

SDXL 0.9 和 SDXL Beta 的差异究竟有多大？

咱们看图说话。

实测效果

下面就来看看新版的 SDXL 0.9，在图片细节上有什么不一样吧~

Prompt：外星人在拉斯维加斯漫步

SDXL Beta 版

SDXL 0.9

Prompt：优胜美地国家公园的一只狼

Negative prompt：3d 渲染，光滑，塑料，模糊，颗粒感，低分辨率，动漫，过度饱和

SDXL Beta 版

SDXL 0.9

Prompt：手举咖啡

Negative prompt：3d 渲染，光滑，塑料，模糊，颗粒状，低分辨率，动漫

SDXL Beta 版

SDXL 0.9

官方表示，SDXL 系列还会提供一系列超越基本文本 prompt 的功能。

包括图像对图像的 prompt（输入一个图像以获得该图像的变化）、内画（重建图像的缺失部分）和外画（构建一个现有图像的无缝扩展）。

SDXL 0.9 在两个 CLIP 模型上运行，包括迄今为止训练的最大的 OpenCLIP 模型之一（OpenCLIP ViT-G / 14），这增强了 0.9 的处理能力和创造具有更大深度和 1024x1024 更高分辨率的逼真图像的能力。

SDXL 团队不久将发布一个研究博客，更详细地介绍这个模型的规格和测试。

荣登 Time 最具影响力公司

就在最近，Stability AI 被时代杂志选为 100 家最有影响力的公司之一。

对于 Stability AI，时代杂志是这样介绍的 ——

如果你能用文字描述，Stability AI 可以将其转化为图片。

Stable Diffusion 是该公司帮助训练的免费开源文本到图像生成器，在 8 月份推出后，它改变了世界对于 AI 潜力的理解。

然而，Stability AI 很快陷入了种种争议，包括如何训练这些工具，以及从互联网上获取数据的版权诉讼之中。

尽管如此，该公司表示，在推出 Stable Diffusion 2.0 的一个月内，App Store TOP 10 应用中的 4 个，背后都是这个模型。

而公司 CEO Emad Mostaque 也被报道经常夸大公司的表现，此前他曾声称：Stability AI「真正的开源」为「突破」铺平了道路。

SDXL Beta

实际上，SDXL 的 Beta 版本也没发布多久，可见作图这一块的版本迭代真的是日新月异。

当时，StabilityAI 就表示，Stable Diffusion XL 并不是最终发布版的名字，并且也并非是 v3，因为 SD-XL 的架构和 SD-v2 系列的模型架构非常相似。

下面几张 SD-XL 官方发布的例图，可以看出图像的质量已经非常能打了。

SD-XL 相比之前版本的改进如下：

使用较短的描述性 prompt 即可生成高质量图像
可以生成更贴合 prompt 的图像
图像中的人体结构更合理
与 v2.1 和 v1.5 版本 (程度较轻) 相比，SD-XL 生成的图片更符合大众审美
负面提示词（negative prompt）是可选项
生成的肖像图更逼真
图像中的文本更清晰

清晰可读的文字

在 v1 系列和 v2.1 版本的 Stable Diffusion 模型中，并不具备在图片中生成可读文本的能力。

虽然 SD-XL 生成的文本信息并不总是准确，但确实得到了巨大的提升。

一个年轻的女性举着一个牌子，上面写着「Stable Diffusion」，头发高亮，坐在餐厅外面，棕色的眼睛，穿着裙子，侧灯

更好的人体结构

Stable Diffusion 在生成人体解剖结构方面一直存在诸多问题，多几条腿、少个胳膊实在是太常见不过的问题。

比如说 SD-v1.5 生成瑜伽的图像，经常会出现扭曲的人体。

而 SD-XL 虽然生成的图像并不完美，不过在人体姿态方面已经有了显著的进步。

更有美感（more aesthetic）

比如同样以屋子为主题，SD-XL 可以生成更对称、视觉效果更好的照片。

SD-XL 在肖像照片上也有显著改进。

一个女人的照片

参考资料：

https://stability.ai/blog/sdxl-09-stable-diffusion

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。