开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

量子位
2024-09-06 23:44

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。

新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。

比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在 <反思> 标签中纠正了自己。

在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准 GSM8K 上直接刷爆，得分 99.2%。

这个结果也让 OpenAI 科学家、德扑 AI 之父 Noam Brown 激情开麦：

GSM8K 得分 99%！是不是可以正式淘汰这个基准了？

模型刚刚上线网友就把试玩挤爆了，对此 Meta 还主动支援了更多算力。

在网友测试中，Reflection 70B 能回答对 GSM8K 数据集中本身答案错误的问题：

我向模型提供了 GSM8K 中存在的 5 个“ground_truth”本身就不正确的问题。
模型没有重复数据集中的错误答案，而是全部回答对了，这很令人印象深刻，表明那 99.2% 的准确率并非来自于记忆测试集！

数各种 r 都不在话下，连生造词“drirrrngrrrrrnnn”中有几个 r 也能被正确数对。

网友纷纷对小团队做出的开源超越顶流闭源感到惊讶，现在最强开源模型可以在本地运行了。

关键 70B 还只是个开始，官方表示下周还会发布更大的 Reflection 405B。

预计 405B 性能将大幅优于 Sonnet 和 GPT-4o。

Reflection 70B 权重已公开，API 访问将于今天晚些时候由 Hyperbolic Labs 提供。

模型能自我反思纠正错误

目前关于 Reflection 70B 的更多细节如下。

Reflection 70B 能力提升的关键，是采用了一种名为 Reflection-Tuning 的训练方法，它能够让模型反思自己生成的文本，在最终确定回应前检测并纠正自身推理中的错误。

训练中的数据来自使用 GlaiveAI 平台生成的合成数据。

Reflection 70B 基于 Llama 3.1 70B Instruct，可以使用与其它 Llama 模型相同的代码、pipeline 等从 Reflection Llama-3.1 70B 进行采样。

它甚至使用了标准的 Llama 3.1 聊天格式。

不过，Reflection 70B 引入了一些特殊 tokens，结构化输出过程。

如下面这个例子所展示的，规划过程分为一个独立的步骤，这样做可以提高 CoT 效果，并保持输出精炼：

模型将从在 <thinking> 和 </thinking> 标签内输出推理开始，一旦对其推理感到满意，就会在 <output> 和 </output > 标签内输出最终答案。

所以它能够将其内部思考和推理与最终答案分离。

在 <thinking> 部分，模型可能会输出一个或多个，这表明模型发现了其推理中的错误，并将在提供最终答案之前尝试纠正该错误。

系统提示如下：

You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside tags, and then provide your final response inside tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside tags.
（你是一个世界级人工智能系统，能够进行复杂的推理和反思。在标签内对查询进行推理，然后在标签内提供你的最终回应。如果你发现自己在任何时候推理出错，请在标签内纠正自己。）