文生图 10 倍速，视频实时渲染！清华发布 LCM：兼容全部 SD 大模型、LoRA、插件等

新智元
2023-11-23 15:36

全面兼容 Stable Diffusion 生态，LCM 模型成功实现 5-10 倍生成速度的提升，实时 AI 艺术时代即将到来，所想即所得！

Latent Consistency Models（潜一致性模型）是一个以生成速度为主要亮点的图像生成架构。

和需要多步迭代传统的扩散模型（如 Stable Diffusion）不同，LCM 仅用 1 - 4 步即可达到传统模型 30 步左右的效果。

由清华大学交叉信息研究院研究生骆思勉和谭亦钦发明，LCM 将文生图生成速度提升了 5-10 倍，世界自此迈入实时生成式 AI 的时代。

LCM-LoRA: https://huggingface.co/papers/2311.05556
项目主页：https://latent-consistency-models.github.io/

Stable Diffusion 杀手：LCM

在 LCM 出现之前，不同团队在各种方向探索了五花八门的 SD1.5 和 SDXL 替代方案。

这些项目各有特色，但都存在着不兼容 LoRA 和不完全兼容 Stable Diffusion 生态的硬伤。按发布时间顺序，比较重要的项目有：

这时，LCM-LoRA 出现了：将 SD1.5、SSD1B、SDXL 蒸馏为 LCM 的 LoRA，将生成 5 倍加速生成能力带到所有 SDXL 模型上并兼容所有现存的 LoRA，同时牺牲了小部分生成质量；项目迅速获得了 Stable Diffusion 生态大量插件、发行版本的支持。

LCM 同时也发布了训练脚本，可以支持训练自己的 LCM 大模型（如 LCM-SDXL）或 LCM-LoRA，做到兼顾生成质量和速度。只要一次训练，就可以在保持生成质量的前提下提速 5 倍。

至此，LCM 生态体系具备了完整替代 SD 的雏形。

截止至 2023/11/22，已支持 LCM 的开源项目：

Stable Diffusion 发行版

WebUI（原生支持 LCM-LoRA，LCM 插件支持 LCM-SDXL）、ComfyUI、Fooocus（LCM-LoRA）、DrawThings

小模型

LCM-LoRA 兼容其他 LoRA，ControlNet

AnimateDiff WebUI 插件

计划中添加支持的项目：

WebUI 主分支持
训练脚本 Kohya SS
LCM-SDXL、LCM-DreamShaper 专属的 ControlNet
LCM-AnimateDiff

随着生态体系的逐渐发展，LCM 有潜力作为新一代图像生成底层完整替代 Stable Diffusion。

未来展望

自 Stable Diffusion 发布至今，生成成本被缓慢优化，而 LCM 的出现使得图像生成成本直接下降了一个数量级。每当革命性的技术出现，都会带来重塑产业的大量机会。LCM 至少能在图像生成成本消失、视频生成、实时生成三大方面给产业格局带来重大变化。

1. 图像生成成本消失

To C 产品端，免费替代收费。受高昂的 GPU 算力成本限制，以 Midjourney 为代表的大量文生图服务选择免费增值作为商业模型。LCM 使手机客户端、个人电脑 CPU、浏览器（WebAssembly）、更容易弹性扩容的 CPU 算力都可能在未来满足图像生成的算力需求。简单的收费文生图服务如 Midjourney 会被高质量的免费服务替代。

To B 服务端，减少的生成算力需求会被增长的训练算力需求替代。

AI 图片生成服务对算力的需求在峰值和谷底涨落极大，购买服务器闲置时间通常超过 50%。这种特点促进了大量函数计算 GPU（serverless GPU）如美国 Replicate、中国阿里云的蓬勃发展。

硬件虚拟化方面如国内的瑞云、腾讯云等也在浪潮中推出了图像模型训练相关虚拟桌面产品。随着生成算力下放到边缘、客户端或更容易扩容的 CPU 算力，AI 生图将普及到各类应用场景中，图像模型微调的需求会大幅上涨。在图像领域，专业、易用、垂直的模型训练服务会成为下一阶段云端 GPU 算力的主要消费者。

2. 文生视频

文生视频目前极高的生成成本制约了技术的发展和普及，消费级显卡只能以缓慢的速度逐帧渲染。以 AnimateDiff WebUI 插件为代表的一批项目优先支持了 LCM，使得更多人能参与到文生视频的开源项目中。更低的门槛必然会加速文生视频的普及和发展。

3 分钟快速渲染：AnimateDiff Vid2Vid + LCM

3. 实时渲染

速度的增加催生了大量新应用，不断拓展着所有人的想象空间。

RT-LCM 与 AR

以 RealTime LCM 为先导，消费级 GPU 上第一次实现了每秒 10 帧左右的实时视频生成视频，这在 AR 领域必然产生深远的影响。

目前高清、低延时捕捉重绘视线内整个场景需要极高算力，所以过去 AR 应用主要以添加新物体、提取特征后低清重绘部分物体为主。LCM 使得实时重绘整个场景成为可能，在游戏、互动式电影、社交等场景中都有无限的想象空间。

未来游戏场景不需新建，带上 AR 眼镜，身处的街道立刻转换为霓虹闪烁的赛博朋克未来风格供玩家探索；看未来的互动式恐怖电影时带上 AR 眼镜，家中熟悉的一切可以无缝融入场景，吓人的东西就藏在卧室门后。虚拟和现实将无缝融合，真实和梦境让人愈发难以区分。而这一切底层都可能会有 LCM 的身影。

RT-LCM 视频渲染

交互方式 - 所想即所得（What you imagine is what you get）

由 Krea.ai、ilumine.ai 首先产品化的实时图像编辑 UI 再次降低了创作的门槛、扩大了创意的边界，让更多人在精细控制的基础上获得了最终画作的实时反馈。

Krea.ai 实时图像编辑

实时图像编辑

建模软件 + LCM 探索了 3D 建模的新方向，让 3D 建模师在所见即所得基础上更进一步，获得了所想即所得的能力。

LCM 实时空间建模渲染

手是人类最没用的东西，因为手永远跟不上脑子的速度。所见即所得（What you see is what you get）太慢，所想即所得（What you imagine is what you get）会成为未来的创意工作的主流。

LCM 第一次让展示效果跟上了灵感创意产生的速度。新的交互方式持续涌现，AIGC 革命的终点是将创意的成本、技术门槛降低至无限接近于 0。不分行业，好的创意将会从稀缺变为过剩。LCM 将我们向未来又推进了一步。

参考资料：

https://latent-consistency-models.github.io/

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。