开源大模型新 SOTA，支持免费商用，比 LLaMA65B 小但更强，基于 1 万亿 token

号称“史上最强的开源大语言模型”出现了。

它叫 Falcon（猎鹰），参数 400 亿，在 1 万亿高质量 token 上进行了训练。

最终性能超越 650 亿的 LLaMA，以及 MPT、Redpajama 等现有所有开源模型。

一举登顶 HuggingFace OpenLLM 全球榜单：

除了以上成绩，Falcon 还可以只用到 GPT-3 75% 的训练预算，性能就显著超越 GPT-3，且推理阶段的计算也只需 GPT-3 的 1/5。

据悉，这只半路杀出来的“猎鹰”来自阿联酋阿布扎比技术创新研究所 (TII)。

有意思的是，作为一个开源模型，TII 在 Falcon 上推出了一个相当特别的授权许可证要求：

可以商业使用，但如果用它产生的收益超过了 100 万美元，就要被收取 10% 的授权费。

一时之间，争议满满。

史上最强开源 LLM

据介绍，Falcon 属于自回归解码器模型。

它使用自定义工具构建，包含一个独特的数据管道，该管道从公开网络中提取训练数据。

——Falcon 宣称它“特别注重数据质量”，从公网上抓取内容构建好 Falcon 的初始预训练数据集后，再使用 CommonCrawl 转储，进行大量过滤（包括删除机器生成的文本和成人内容）并消除重复数据，最终得到一个由近 5 万亿个 token 组成的庞大预训练数据集。

为了扩大 Falcon 的能力，该数据集随后又加进了很多精选语料，包括研究论文和社交媒体对话等内容。

除了数据把关，作者还对 Falcon 的架构进行了优化以提升性能，但细节没有透露，相关论文将很快发布。

据悉，Falcon 一共耗费两个月，在 AWS 的 384 个 GPU 上训练而成。

最终，Falcon 一共包含 4 个版本：

Falcon-40B：在 1 万亿 token 上进行训练，并使用精选语料库进行了增强；主要接受英语、德语、西班牙语、法语的训练，不会中文。
Falcon-40B-Instruct：在 Baize 上进行了微调，使用 FlashAttention 和多查询对推理架构进行了优化，是一个即用型聊天模型。
Falcon-7B：参数 70 亿，在 1.5 万亿 token 上进行了训练，作为一个原始的预训练模型，还需要用户针对大多数用例进一步微调。
Falcon-RW-7B：参数 70 亿，在 3500 亿 token 上进行训练，该模型旨在用作“研究神器”，单独研究各种在网络数据进行训练的影响。