刚刚,Stable Diffusion 原班人马官宣创业新公司!
3 月宣布从 Stability AI 出走的 Robin Rombach,就是 Stable Diffusion 的两个主要作者之一,和十来个原公司小伙伴,正式宣布了组团创业的消息。
新公司名叫Black Forest Lab,黑森林实验室。一亮相就 kuku 发了一个系列、共 3 款图片生成模型,其中有 2 个开源。
而且支持中文输入。
效果怎么样?看过的网友称很狂野(wild)!
输入提示词,一次测试出了画面效果和人脸数据等安全措施:
一名十多岁戴着滑雪面罩的女孩在谷仓里做折纸手工。图片底部有指定的黄色文字。背景中有个相框,里面是 Obama 的照片。
单是看了这组图文对照,就有网友感慨,这是他看过最棒的图像生成效果。
要说这家公司的特色,就是主打一个不遮遮掩掩。
今天官宣成立,今天发布系列模型,还宣布了融资进度 ——
已经完成 3200 万美元(当前约 2.32 亿元人民币)融资,由 a16z 领投,Oculus VR 联创 Brendan Iribe、YC 前合伙人 Garry Tan、NVIDIA Research 领导计算机图形研究小组的 Timo Aila、苹果杰出科学家(英特尔智能系统前首席科学家)Vladlen Koltun 等人投资。
可以说,黑森林既得到了资本市场的押注,也得到了业界大佬们的青睐。
AI 大牛卡帕西也在线发来贺电,还顺道称赞了一下黑森林的新模型:
歪瑞古德!开源的 FLUX.1 image gen 模型看起来非常强大。
而且注意了,开源协议是宽松的 Apache2.0。
卡帕西都觉得 exciting 了,让咱来视觉感受下黑森林的模型效果。
这里,量子位挑选了五种类型的生成效果展示,图片均由官方提供,未标明具体使用了旗下哪款模型。
第一关,文字生成。
提示词:旧教室黑板的照片。黑板上用粉笔写着“let’s make some really pretty stuff together”,词后有一个红色的粉笔心。阳光从窗户照进来。
第二关,非真实场景 + 文字生成。
提示词:水下场景中,两只猫头鹰坐在一张精美的餐桌旁,餐桌中央点燃了蜡烛,两只猫头鹰正在一起享用一顿美味的晚餐。左边的猫头鹰穿着燕尾服,右边的猫头鹰穿着漂亮的裙子。背景中有一艘潜艇驶过,其侧面画有“What a Hoot”字样。桌子下面的图像底部有小水母在游动,电影般美丽的数字艺术品。
第三关,现实世界真实场景。
提示词:弗莱堡一条美丽街道的照片,一辆有轨电车经过,人们有的散步有的骑自行车。
第四关,真实人物和动漫人物生成。
提示词:三位女士在市中心街道上拍摄的照片,她们把手伸向镜头。
提示词:美丽的动漫艺术品,一个可爱的猫娘,看起来很沮丧,手里拿着一张纸,上面画着微笑,她快要哭了。
第五关,动物形象生成。
提示词:森林里的一只山猫,由专业摄影在强光下拍摄。
提示词:近距离渲染一个神话生物,由详细的螺旋分形和卷须组成,详细的递归皮肤纹理
此次,黑森林共发了 FLUX.1 系列的 3 个模型:pro、dev、schnell。
FLUX.1 [pro]:系列最强音。
FLUX.1 系列的精华,提供最优性能的图像生成,具有一流的指令遵循、视觉质量、图像细节和输出多样性。
黑森林团队正缓步提升 API 中 FLUX.1 [pro] 的推理计算能力。
此版本可以通过 Replicate 和fal.ai访问;提供专用和定制的企业解决方案。
FLUX.1 [dev]:系列中杯。
一个允许非商业途径使用的模型,开放权重、经过蒸馏。
[dev] 直接从 [pro] 中蒸馏而来,具有相似的质量和迅速的遵守能力,同时比相同尺寸的标准模型更高效。
可在抱抱脸上试玩,或直接在 Replicate 或fal.ai上试用。
FLUX.1 [schnell]:速度小旋风。
系列最快模型,为本地开发和个人开发者量身制作。
FLUX.1 [schnell] 在 Apache2.0 许可证下公开可用,模型权重可以前往抱抱脸查询,推理代码可以在 GitHub 上找到。
已经获得了 ComfyUI 的支持,可以直接使用;也可以通过 Replicate 或fal.ai使用。
来个直观感受!
这里放三张照片,是以上大杯、中杯、小杯在不同提示词下,围绕“蛋糕”这个主题的生成效果。
△从左至右,使用模型依次为大、中、小杯
量子位多次测试后发现,输入简单提示词的话,用 pro 版本生成一张图片的用时在 15s-25s 之间(成果图下方会显示生成用时)。
黑森林称,所有 FLUX.1 模型都基于多模态和并行扩散 Transformer 块的混合架构,并扩展到 12B 参数。
3 款模型中,FLUX.1 [pro] 和 [dev] 在视觉质量、提示响应度、尺寸 / 长宽高比列灵活性、排版和输出多样性这些方面,超过了 Midjourney v6.0、DALL・E 3 (HD) 和 Stable Diffusion 3-Ultra。
而 FLUX.1 [schnell] ,被团队称为“迄今为止最先进的少步骤模型(few-step model)”。
它不仅在同类竞争对手中脱颖而出,还超越了更强大的非压缩模型,如 Midjourney v6.0 和 DALL・E 3 (HD)。
整个 FLUX.1 系列都经过了专门的微调,以求保留预训练阶段的全部输出多样性。
与已有的技术相比,FLUX.1 还有以下优势:
有人免不了要问了,你们是 Stability AI 的 OG 元老,是核心成员。
So,你们这新模型,跟人家旗下的 Stable Diffusion 有啥区别?
创始团队成员在 Reddit 上进行了回应:
即使是我们的最弱型号 schnell,生成质量也更好,生成速度也更快。
主打一个我成立新公司超越我自己
介绍完模型相关资料,是时候正式来认识一下这家新公司了。
黑森林实验室,今天刚刚宣布成立。
公司官网上,赫然写着一句口号:A new era of creation。
公司使命推进最先进、高质量的图像和视频生成深度学习模型,并将其提供给最广泛的受众。
华点出现了!他们的下一步野心很明显,就是还要进军视频生成领域。
还放话,得是“SOTA”。
核心成员Robin Rombach,Stability AI 前研究科学家。
在 Stability AI 工作期间,他是 Stable Diffusion 模型的主要开发者之一,也参与研究了 SDXL、SVD 等项目。
今年 3 月,Robin 从 Stability AI 跑路。
外界评价他的离开让原本就乱成一锅粥的这家独角兽伤筋动骨 —— 毕竟他是 SD 的两位主力之一。
往前回顾,Robin 在海德堡大学拿下物理学的本科和硕士学位。
2020 年,他在海德堡计算机视觉小组在 Björn Ommer 的指导下开始攻读计算机科学博士学位,并于 2021 年随研究小组移至慕尼黑大学。
研究重点关于生成深度学习模型,特别是文本到图像系统。
谷歌学术被引数接近 1.5 万。
此外,官网公开的成员中,Andreas Blattmann、Axel Sauer、Dominik Lorenz、Dustin Podel、Frederic Boesel、Patrick Esser、Sumith Kulal、Tim Dockhorn、Yam Levi、Zion English都是可公开查询到的 Stability AI 原成员。
(Andi Holmes 和 Jonas Müller 两人暂未查询到准确资料)
可以说,黑森林就是 SD 的原班核心成员们出走再启航了。
难怪 Axel Sauer 转发了官推,大声呐喊:
我们还活着!
好巧不巧,同一天,Stability AI 也有新动作:
推出新的 AI 模型Stable Fast 3D,官方称它可以在半秒内生成 3D 图像。
此前的模型需要数分钟才能生成类似效果的 3D 图像,新模型完成相同任务的速度是现有的 1200 倍。
那 Stability AI 在 3 月跑路的 CEO,Emad Mostaque,他在干嘛呢?
六月份,他官宣了自己的去向,新公司Schelling AI,“将构建和支持由 AI 资金支持的开源代码、模型和数据集”。
重点精力放在创新研究和精心构建具有文化意识、科学、教育和创意的 AI。
三天前,Schelling AI 发布了系列文章第一篇,《How To Think About AI》。
文章有点长,感兴趣的朋友们可以搜索自行查看,这里就提一下核心思想 ——
AI 发展很快,提倡开源开放,加速创新协作。
以及,要不说大家都是体面人呢!
黑森林实验室宣布成立的推文,人家前 CEO 还是友情转发了的(此处放一个狗头)。
参考链接:
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/
[5]https://x.com/SchellingAI/status/1818600200232927721
本文来自微信公众号:量子位(ID:QbitAI),作者:衡宇
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。