.hd-box .hd-fr

最强开源文生图模型一夜易主:SD 原班人马打造,要发 SOTA 视频生成模型

2024-08-02 14:22智东西(香草)8评
感谢IT之家网友刺客的线索投递!

最强开源文生图模型一夜易主!

昨日晚间,开源文生图模型霸主Stable Diffusion原班人马,宣布推出全新的图像生成模型FLUX.1

FLUX.1 包含专业版、开发者版、快速版三种模型,其中前两款模型击败 SD3-Ultra 等主流模型,较小规模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL・E 3 等更大的模型。

▲ FLUX.1 ELO 分数与主流模型对比

FLUX.1 在文字生成、复杂指令遵循人手生成上具备优势。以下是其最强的专业版模型 FLUX.1 [pro] 生成图像示例,可以看到即使是生成大段的文字、多个人物,也没有出现字符、人手等细节上的错误。

▲ FLUX.1 [pro] 生成图像示例

FLUX.1 现已在开源平台 Replicate 上可用,以下是我用提示词“世界上最小的黑森林蛋糕,手指大小,被黑森林的树木包围”,在三款模型上生成的图像,用时分别为17.5s、12.2s、1.5s

▲ 三款模型生成对比

FLUX.1 同时开放了 API(应用程序接口),按图像张数定价,三款模型的价格依次为每张图片0.055 美元、0.03 美元、0.003 美元(约合人民币 0.4 元、0.22 元、0.022 元)。

FLUX.1 背后的公司名为Black Forest Labs(黑森林实验室),由 Stable Diffusion 原班人马、多位 Stability AI 前研究员成立。与 Stability AI 类似,黑森林致力于研发优质多模态模型并开源,目前已完成3100 万美元(约合人民币 2.25 亿元)的种子轮融资。

黑森林还预告不久之后将发布SOTA(当前技术指标第一)视频模型。从其放出的 Demo 来看,无论是流畅度、稳定性还是物理模拟都达到第一梯队水平,该公司或许会成为视频生成领域的一匹黑马。

▲ 视频生成模型预告

三款模型试用地址:

擅长生成文字、人手,三种模型规模秒级生成

FLUX.1 在视觉质量、图像细节和输出多样性等方面性能优越,其具有三大特点:文字生成、复杂构图、人手描绘

文字的生成在图像、视频生成中非常重要,许多模型容易混淆看起来相似的字母。FLUX.1 可以处理重复字母的棘手单词,例如生成一个黑森林 Flux Schnell 蛋糕

▲ 黑森林 Flux Schnell 蛋糕

在构图方面,FLUX.1 擅长按照图像中事物应该位于哪里等复杂指示进行操作。例如,FLUX.1 完美地演绎了这段提示词:三个魔法巫师站在一张黄色桌子上,每个巫师都拿着一个标志。左边,一个穿着黑色长袍的巫师拿着一个写着“AI”的标志;中间,一个穿着红色长袍的女巫拿着一个写着“is”的标志;在右边,一个穿着蓝色长袍的巫师拿着一个写着“cool”的标志。

▲ 复杂构图

人手一直是多模态生成模型的重灾区。FLUX.1 生成的人手图像虽然还不够完美,但实现了很大的进步。

▲ 人手

FLUX.1 共有专业版、开发者版、快速版三种版本。

其中,FLUX.1[pro]是最先进的一个版本,具有顶级的即时跟踪、视觉质量、图像细节和输出多样性,面向专业用户提供定制的企业解决方案。

▲ FLUX.1 [pro] 生成图像示例

FLUX.1[dev]面向非商业应用,它从 FLUX.1 [pro] 提炼而来,具有相似的质量和能力,同时比相同尺寸的标准模型更高效。

▲ FLUX.1 [dev] 生成图像示例

FLUX.1[schnell]是三款模型中最快的,专为本地开发和个人使用而定制,并根据 Apache 2.0 标准许可公开提供。

▲ FLUX.1 [schnell] 生成图像示例

FLUX.1 现已在开源平台 Replicate 上可用,只需一行代码即可在云端运行,用户也可以下载模型权重并以编程方式运行。FLUX.1 的 API 也同步开放,三款模型的价格依次为每张图片0.055 美元、0.03 美元、0.003 美元(约合人民币 0.4 元、0.22 元、0.022 元)。

击败 MJ V6、DALL・E 3,技术报告即将发布

性能方面,FLUX.1 经过特别微调,在预训练中保留了整个输出多样性,在指令遵守、视觉质量、尺寸 / 长宽变化等多个方面树立了新标准。

其中 FLUX.1 [pro] 和 [dev] 两款模型,在 5 项测评标准中都超过了 Midjourney v6.0、DALL・E 3 和 SD3-Ultra 等热门模型。

FLUX.1 [schnell] 作为轻量级模型,不仅优于同类竞争对手,还优于 Midjourney v6.0、DALL・E 3 等强大的非蒸馏模型。

▲ FLUX.1 性能与主流模型对比

此外,所有 FLUX.1 模型均支持 0.1 和 2.0 百万像素的多种宽高比和分辨率。

▲ 宽高比 / 分辨率变化

如此强大的性能是怎么做到的?

在模型架构上,FLUX.1 采用基于多模态和并行扩散 Transformer 模块的混合架构,并将其扩展到 12B 参数。

团队通过建立流匹配(Flow Matching)来改进最先进的扩散模型,并通过结合旋转位置嵌入(Rotary Position Embedding)和并行注意力层,来提高模型性能和硬件效率。更详细的技术报告将在不久后发布。

SD 原班人马,2.25 亿种子轮,要发 SOTA 视频模型

黑森林实验室由 Stable Diffusion 的创始团队成立,该团队此前的工作还包括高质量图像生成模型 VQGAN、视频生成模型 Stable Video Diffusion 等。

Stable Diffusion 最初的 5 位作者中,4 位曾加入 Stability AI 并持续开发 SD 后续版本的成员,包括 Robin Rombach、Andreas Blattmann、Dominik Lorenz 以及 Patrick Esser,都在黑森林实验室的创始团队中。

▲ Stable Diffusion 作者、黑森林实验室创始团队

该团队称,其核心信念是开发广泛可访问的模型,促进研究界和学术界的创新和协作,并提高模型透明度。

黑森林实验室宣布已完成3100 万美元(约合人民币 2.25 亿元)的种子轮融资,由知名风投机构 a16z(Andreessen Horowitz)领投,VR 制造商 Oculus 的 CEO Brendan Iribe、创企孵化器 YC 的 CEO 陈嘉兴(Garry Tan)、英伟达研究员 Timo Aila 等专家及 AI 公司跟投,还收到了来自 General Catalyst 等一线基金的后续投资。

该团队的顾问委员会,包括在内容创作行业拥有丰富经验的前迪士尼总裁 Michael Ovitz,以及神经风格转换的先驱 Matthias Bethge 教授。

刚刚创业的 AI 大神安德烈・卡帕西(Andrej Karpathy)为黑森林团队送上祝福,并称“开源的 FLUX.1 图像生成模型看起来非常强大”。

▲ 卡帕西评论

创始团队的前领导 ——Stability AI 前 CEO埃马德・莫斯塔克(Emad Mostaque)也发来贺电,还说“之前能与他们合作是我的荣幸,我相信他们会继续在生成每一个像素的旅程中突破界限”。

▲ 莫斯塔克评论

在下一步的工作上,黑森林预告将发布一款SOTA 文生视频模型,“让所有人都能将文本转为视频”。该模型将建立在 FLUX.1 的基础上,“以高清和前所未有的速度实现精确创作和编辑”。

▲ 视频生成模型预告

结语:多模态大模型领域黑马涌现

在众多大厂、创企狂卷文生视频之际,文生图领域突然迎来黑马。“横空出世”的 FLUX.1 的不仅展现出卓越的性能,在文字生成、复杂构图、人手描绘等方面突破难关,还以多样化的版本满足不同用户的需求。

黑森林实验室凭借着 Stable Diffusion 原班人马的强大实力,获得了丰厚的种子轮融资,也吸引了众多行业大咖的关注与支持。其后续将发布的视频模型,又将为文生视频领域注入新的活力。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论