Stability AI 连扔两个王炸，首个开源 RLHF 模型登基，DeepFloyd IF 像素级出图

新智元
2023-05-01 12:00

开源先锋 StabilityAI 一天扔了两枚重磅炸弹：发布史上首个开源 RLHF 大语言模型，以及像素级图像模型 DeepFloyd IF。开源社区狂喜！

最近，大名鼎鼎的 Stable Diffusion 背后的公司，一连整了两个大活。

首先，Stability AI 重磅发布了世上首个基于 RLHF 的开源 LLM 聊天机器人 ——StableVicuna。

StableVicuna 基于 Vicuna-13B 模型实现，是第一个使用人类反馈训练的大规模开源聊天机器人。

有网友经过实测后表示，StableVicuna 就是目前当之无愧的 13B LLM 之王！

对此，1x exited 创始人表示，这可以看作是自 ChatGPT 推出以来的第二个里程碑。

另外，Stability AI 发布了开源模型 DeepFloyd IF，这个文本到图像的级联像素扩散模型功能超强，可以巧妙地把文本集成到图像中。

这个模型的革命性意义在于，它一连解决了文生图领域的两大难题：正确生成文字，正确理解空间关系！

秉持着开源的一贯传统，DeepFloyd IF 在以后会完全开源。

Stailibity AI，果然是开源界当之无愧的扛把子。

StableVicuna

世上首个开源 RLHF LLM 聊天机器人 StableVicuna，由 Stability AI 震撼发布！

一位 Youtube 主播对 Stable Vicuna 进行了实测，Stable Vicuna 在每一次测试中，都击败了前任王者 Vicuna。

所以这位 Youtuber 激动地喊出：Stable Vicuna 就是目前最强大的 13B LLM 模型，是当之无愧的 LLM 模型之王！

StableVicuna 基于小羊驼 Vicuna-13B 模型实现，是 Vicuna-13B 的进一步指令微调和 RLHF 训练的版本。

而 Vicuna-13B 是 LLaMA-13B 的一个指令微调模型。

从以下基准测试可以看出，StableVicuna 与类似规模的开源聊天机器人在整体性能上的比较。

StableVicuna 可以做基础数学题。

可以写代码。

还能为你讲解语法知识。

开源聊天机器人平替狂潮

Stability AI 想做这样一个开源的聊天机器人，当然也是受了此前 LLaMa 权重泄露引爆的 ChatGPT 平替狂潮的影响。

从去年春天 Character.ai 的聊天机器人，到后来的 ChatGPT 和 Bard，都引发了大家对开源平替的强烈兴趣。

这些聊天模型的成功，基本都归功于这两种训练范式：指令微调和人类反馈强化学习 (RLHF)。

这期间，开发者一直在努力构建开源框架帮助训练这些模型，比如 trlX、trl、DeepSpeed Chat 和 ColossalAI 等，然而，却并没有一个开源模型，能够同时应用指令微调和 RLHF。

大多数模型都是在没有 RLHF 的情况下进行指令微调的，因为这个过程十分复杂。

最近，Open Assistant、Anthropic 和 Stanford 都开始向公众提供 RLHF 数据集。

Stability AI 把这些数据集与 trlX 提供的 RLHF 相结合，就得到了史上第一个大规模指令微调和 RLHF 模型 ——StableVicuna。

训练过程

为了实现 StableVicuna 的强大性能，研究者利用 Vicuna 作为基础模型，并遵循了一种典型的三级 RLHF 管线。

Vicuna 在 130 亿参数 LLaMA 模型的基础上，使用 Alpaca 进行调整后得到的。

他们混合了三个数据集，训练出具有监督微调 (SFT) 的 Vicuna 基础模型：

OpenAssistant Conversations Dataset (OASST1)，一个人工生成的、人工注释的助理式对话语料库，包含 161,443 条消息，分布在 66,497 个对话树中，使用 35 种不同的语言；
GPT4 All Prompt Generations，由 GPT-3.5 Turbo 生成的 437,605 个提示和响应的数据集；
Alpaca，这是由 OpenAI 的 text-davinci-003 引擎生成，包含 52,000 条指令和演示的数据集。
研究者使用 trlx，训练了一个奖励模型。在以下这些 RLHF 偏好数据集上，研究者得到了 SFT 模型，这是奖励模型的基础。
OpenAssistant Conversations Dataset (OASST1)，包含 7213 个偏好样本；
Anthropic HH-RLHF，一个关于 AI 助手有用性和无害性的偏好数据集，包含 160,800 个人类标签；
斯坦福人类偏好 (SHP)，这是一个数据集，包含 348,718 个人类对各种不同回答的集体偏好，包括 18 个从烹饪到哲学的不同学科领域。

最后，研究者使用了 trlX，进行近端策略优化 (Proximal Policy Optimization, PPO) 强化学习，对 SFT 模型进行了 RLHF 训练，然后，StableVicuna 就诞生了！

据 Stability AI 称，会进一步开发 StableVicuna，并且会很快在 Discord 上推出。

另外，Stability AI 还计划给 StableVicuna 一个聊天界面，目前正在开发中。

相关演示已经可以在 HuggingFace 上查看了，开发者也可以在 Hugging Face 上下载模型的权重，作为原始 LLaMA 模型的增量。

但如果想使用 StableVicuna，还需要获得原始 LLaMA 模型的访问权限。

获得权重增量和 LLaMA 权重后，使用 GitHub 存储库中提供的脚本将它们组合起来，就能得到 StableVicuna-13B 了。不过，也是不允许商用的。

DeepFloyd IF

在同一时间，Stability AI 还放出了一个大动作。

你敢信，AI 一直无法正确生成文字这个老大难问题，竟然被解决了？（基本上）

没错，下面这张「完美」的招牌，就是由 StabilityAI 全新推出的开源图像生成模型 ——DeepFloyd IF 制作的。

除此之外，DeepFloyd IF 还能够生成正确的空间关系。

模型刚一发布，网友们已经玩疯了：

prompt: Robot holding a neon sign that says "I can spell".

不过，对于 prompt 中没有明确说明的文字，DeepFloyd IF 大概率还是会出错。

prompt：A neon sign of an American motel at night with the sign javilop

官方演示

顺便一提，在硬件的需求上，如果想要实现模型所能支持的最大 1,024 x 1,024 像素输出，建议使用 24GB 的显存；如果只要 256 x 256 像素，16GB 的显存即可。

是的，RTX 3060 16G 就能跑。

代码实现：https://gist.github.com/ Stella2211 / ab17625d63aa03e38d82ddc8c1aae151

开源版谷歌 Imagen

2022 年 5 月，谷歌高调发布了自家的图像生成模型 Imagen。

根据官方演示的效果，Imagen 不仅在质量上完胜 OpenAI 最强的 DALL-E 2，更重要的是 —— 它能够正确地生成文本。

迄今为止，没有任何一个开源模型能够稳定地实现这一功能。

与其他生成式 AI 模型一样，Imagen 也依赖于一个冻结的文本编码器：先将文本提示转换为嵌入，然后由扩散模型解码成图像。但不同的是，Imagen 并没有使用多模态训练的 CLIP，而是使用了大型 T5-XXL 语言模型。

这次，StabilityAI 推出的 DeepFloyd IF 复刻的正是这一架构。

甚至在测试中，DeepFloyd IF 凭借着 COCO 数据集上 6.66 的 zero-shot FID 分数，直接超越了谷歌的 Imagen，以及一众竞品（包括自家 Stable Diffusion）。

下一代图像生成 AI 模型

具体来说，DeepFloyd IF 是一个模块化、级联的像素扩散模型。

模块化：

DeepFloyd IF 由几个神经模块组成（可以解决独立任务的神经网络），它们在一个架构中相互协同工作。

级联：

DeepFloyd IF 以多个模型级联的方式实现高分辨率输出：首先生成一个低分辨率的样本，然后通过连续的超分辨率模型进行上采样，最终得到高分辨率图像。

扩散：

DeepFloyd IF 的基本模型和超分辨率模型都是扩散模型，其中使用马尔可夫链的步骤将随机噪声注入到数据中，然后反转该过程从噪声中生成新的数据样本。

像素：

DeepFloyd IF 在像素空间工作。与潜在扩散模型（如 Stable Diffusion）不同，扩散是在像素级别实现的，其中使用潜在表征。

上面这个流程图展示的就是，DeepFloyd IF 三个阶段的性能：

阶段 1：

基本扩散模型将定性文本转换为 64x64 图像。DeepFloyd 团队已经训练了三个版本的基本模型，每个版本都有不同的参数：IF-I 400M、IF-I 900M 和 IF-I 4.3B。

阶段 2：

为了「放大」图像，团队将两个文本条件超分辨率模型（Efficient U-Net）应用于基本模型的输出。其中之一将 64x64 图像放大到 256x256 图像。同样，这个模型也有几个版本：IF-II 400M 和 IF-II 1.2B。

阶段 3：

应用第二个超分辨率扩散模型，生成生动的 1024x1024 图像。最后的第三阶段模型 IF-III 拥有 700M 参数。

值得注意的是，团队还没有正式发布第三阶段的模型，但 DeepFloyd IF 的模块化特性让我们可以使用其他上采样模型 —— 如 Stable Diffusion x4 Upscaler。

团队表示，这项工作展示了更大的 UNet 架构在级联扩散模型的第一阶段的潜力，从而为文本到图像合成展示了充满希望的未来。

数据集训练

DeepFloyd IF 是在一个定制的高质量 LAION-A 数据集上进行训练的，该数据集包含 10 亿（图像，文本）对。

LAION-A 是 LAION-5B 数据集英文部分的一个子集，基于相似度哈希去重后获得，对原始数据集进行了额外的清理和修改。DeepFloyd 的定制过滤器用于删除水印、NSFW 和其他不适当的内容。

目前，DeepFloyd IF 模型的许可仅限于非商业目的的研究，在完成反馈的收集之后，DeepFloyd 和 StabilityAI 团队将发布一个完全免费的商业版本。

参考资料：

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
https://stability.ai/blog/deepfloyd-if-text-to-image-model

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。