千亿参数大模型首次被撬开！Meta 复刻 GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布

量子位
2022-05-04 15:59

感谢IT之家网友 Sancu 的线索投递！

千亿级参数 AI 大模型，竟然真的能获取代码了？！

一觉醒来，AI 圈发生了一件轰动的事情：Meta AI 开放了一个“重达”1750 亿参数的大语言模型 OPT-175B，不仅参数比 GPT-3 的 3750 亿更少，效果还完全不输 GPT-3。

这意味着 AI 科学家们，终于可以“撬开”像 GPT-3 这样的大模型，看看里面到底有些什么秘密了。之前 GPT-3 虽然效果惊艳但不够开放，源代码独家授权给了微软，连马斯克都批评过 OpenAI 不够 open。

虽然论文就在那里，想要在此之上做进一步研究的话就得先复现一个出来再说。而这一次，Meta 从完整模型到训练代码、部署代码全部开放。有人甚至在官宣之前就摸到还没上传好的 GitHub 仓库去蹲点了。

还有人艾特 OpenAI 试图“引战”：

那么，Meta 大模型有何特点、如何做到绿色低能耗，又为何要对外开放？一起来看看。

用 16 块 V100 就能跑起来

OPT 全称 Open Pre-trained Transformer Language Models，即“开放的预训练 Transformer 语言模型”。相比 GPT，名字直接把 Generative 换成了 Open，可以说是非常内涵了。（手动狗头）在论文中，Meta AI 也不避讳宣称 OPT-175B 就是对标 GPT-3，还暗示一波自己更环保：

Meta AI 对此解释称，OPT 就是奔着开放代码去的，为了让更多人研究大模型，环境配置肯定是越经济越好。这不，运行时产生的碳足迹连 GPT-3 的 1/7 都不到，属实省能又高效。为了方便研究人员“量力而行”，Meta AI 搞出了各种大小的 OPT 模型，从 125M 参数到 1750 亿参数的不同大小模型都有。其中，660 亿参数的模型还在制作中，马上也会和大伙儿见面：

所以，最大的 OPT-175B 模型究竟有多高效，又是怎么做到的？

性能方面，Meta AI 针对 OPT-175B 和 GPT-3，用 14 个 NLP 任务进行了测试。结果表明，无论是零样本学习（zero-shot）还是多样本学习（Multi-shot），OPT 在这些任务上的平均精度都与 GPT-3 相差不大。其中虚线为 GPT，实线为 OPT：

△ 左为零样本学习，右为多样本学习

再看具体任务。在对话任务中，采用无监督学习的方法训练 OPT-175B，效果和监督学习训练的几类模型相近：

仇恨言论检测任务上的效果，更是完全超过 Davinci 版本的 GPT-3 模型（在 GPT-3 的四个版本中是效果最好的）：

训练硬件方面，Meta AI 用了 992 块英伟达 A100 GPU（80GB）训练 OPT，平均每块 GPU 的计算效率最高能达到 147 TFLOP / s。

这个效率，甚至比英伟达自家研究人员用起来还高，大约超过 17% 左右。Meta AI 透露称，一方面是采用了自家推出的一款名叫 FSDP（Fully Sharded Data Parallel）的 GPU 内存节省工具，使得大规模训练的速度比传统方法快上 5 倍左右；另一方面他们也借鉴了英伟达 Megatron-LM 模型的张量并行方法，将一个运算分布到多个处理器上同时进行。甚至 Meta AI 表示，最低只需要 16 块英伟达 V100 GPU，就能训练并部署 OPT-175B 模型。