.hd-box .hd-fr

「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假

2024-10-07 16:06新智元(新智元)9评

「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。

「开源新王」Reflection 70B,才发布一个月就跌落神坛了?

9 月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 ——

用 Meta 的开源 Llama 3.1-70B,团队微调出了 Reflection 70B。它的基准测试结果惊人,可以和 Claude 3.5 Sonnet 以及 GPT-4 这类顶级闭源模型一较高下,直接登顶「世界开源新王」!

结果没多久,Reflection 70B 就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。

无论是 AI 研究者,还是第三方评估者,都无法复现 Matt Shumer 所声称的结果。

根据 Artificial Analysis 的数据,Reflection 70B 在基准测试中的表现,竟然还不如原始版的 Llama 3.1 70B。

随后,开发者们甚至还发现,Reflection 可能就是个「套壳」模型,而且还是连套三家的那种(Claude / GPT / Llama)。

这下子,Reddit 和 X 等平台上,立刻掀起了质疑的声浪。

为此,Shumer 承诺将和 Glaive 创始人 Sahil Chaudhary 一起调查此事。(Reflection 70B 的训练过程中,使用了 Glaive 的合成数据)

有趣的问题:Sahil Chaudhary 是谁?

如今,调查结果水落石出 ——Reflection 70B 果然没有达到最初报告的基准!

Matt Shumer 在 X 上发帖承认了这一错误,表示非常遗憾。

「不幸的是,该模型没有达到最初报告的基准。我对最终结果感到失望,要知道上个月我们推出模型时,结果是多么令人兴奋」

本来,Schumer 的公司计划是计划发布基于 LLaMA 3.1 450B 微调的新模型的,看来也是遥遥无期了。

网友:你们这波操作,也算是推进了 o1 的发布

理所当然的,网友们在他的评论区表示了失望。

好笑的是,有人表示 Matt Schumer 还是做出了一点贡献的:Reflection 70B 的发布,让 OpenAI 心安理得地拿出了还没做完的 o1-preview。

明明模型没有实现性能,为什么却能拿到相应的基准测试结果?

英伟达高级研究主管 Jim Fan 解释说,基准是可以轻松操控的。

比如,可以根据测试集的示例训练模型,通过提示工程快速提升模型,增加推理时间和更强的计算能力等等。

总之,2024 年 9 月的 MMLU 或 HumanEval 基准已经被严重破坏了,随便一个本科生就能随意操纵他们。

在 Jim Fan 看来,可靠地识别优秀模型的唯一方法,就是使用 LMSy 的 Arena 聊天机器人(由人类在盲测中对 LLM 结果进行评分),或来自第三方提供商(如 Scale AI)的私人基准测试。

而 Glaive 的创始人 Sahil Chaudhary,也在博客上发布了关于「Reflection 70B 造假事件」的事后分析报告。

他的一个发现,让整件事情更有趣了 ——

之前的 Reflection 70B 的几个测试结果之所以出现了几个百分点的偏差,是因为初始代码中的一个 bug。

由于系统处理外部 API 响应的方式出现了错误,导致某些任务(例如 MATH 和 GSM8K)分数过高。

比如在 MATH 基准上,模型得分实为 69-70%,而非报告的 79%;GSM8K 基准的得分,实为 94-96%,而非报告的 99.2%。

我们使用一个相等性检查器(equality checker),它利用 OpenAI API 来检查两个数学表达式是否相等。每当这个 API 返回错误或「是」或「否」以外的响应时,我们都将其计为被基准测试的模型的正确得分,这个问题现已被修复。

修正后的基准显示,相对于初始报告,Reflection 70B 性能略有下降,但仍然强劲。

复盘报告

具体情况,我们可以看一下 Sahil Chaudhary 放出的这份长篇报告。

报告地址:https://glaive.ai/blog/post/reflection-postmortem

在这篇长文中,Sahil Chaudhary 针对外界的质疑一一进行了回应 ——

复现基准

如今,经过一个月的漫长等待,团队终于放出了 Reflection 70B 的模型权重、训练数据、训练脚本和评估代码。

复现的结果如下:

可以看到,模型在 MMLU 和 GPQA 上分别提升了 1.04% 和 0.3%,但在 HumanEval、MATH、GSM8K,以及 IFEVAL 上都有着明显的下降,分别是 1.98%、8.9%、3.98%、2.5%。

原始测评结果

总之,修订后的分数已经不如最初报告的那么高了。

数据污染

此前还有许多网友质疑,训练 Reflection 70B 的数据集,是否遭到了污染?

针对这个质疑,Sahil 予以了否认。

首先,他使用 LMSYS 的「LLM Decontaminator」检查了数据集是否存在污染,结果并没有发现数据集与基准测试有明显重叠。

不过,这还不能完全证明模型没有在基准测试上进行训练,因为无法确定这就是用于训练该特定版本模型的数据集。

项目地址:https://github.com/lm-sys/llm-decontaminator

随后,他又进行了另一个测试 —— 对于基准测试集中的每个问题,将问题字符串分成两半,然后在温度为 0 且不附加任何 EOS token 的情况下生成输出,然后检查生成的问题是否与评估问题相同。

结果显示,模型能够生成 6% 的 MMLU 测试集中的问题。

这个结果仍然不是很稳健,因为模型总有可能在测试集的解释版本上训练过,因此,Sahil 还发布了用于训练模型的训练脚本和超参数。

此外,模型有时会在生成的末尾添加「Answer: A」「Answer: C」「Answer: $option」等,这可能是数据集的一个特征。

最终,为了让大家能够更好地进行评测,团队决定发布用于训练模型的训练脚本和超参数。

作为补充,他还跑了一遍 MixEval 的基准测试,以查看模型是否过度拟合上述基准测试,或者是否在某种程度上具有泛化能力。

项目地址:https://github.com/Psycoy/MixEval/

结果如下:

按照这个结果,数据集被污染的可能性不大。

模型开发

随后,Sahil 又在博客中对整个模型的训练和发布过程进行了详细复盘。

在模型的开发上,Sahil 和 Matt 二人只用了 3-4 周就生成了 Reflection 的数据集,并在各种模型规模上进行了多次迭代。

他们的想法是,如果让模型对思维链(COT)进行「反思」,它们或许能够识别并修正错误。

为此,他们生成了一个数据集,其中响应被分为 <thinking> 和 < output > 标签,<reflection > 标签在 < thinking > 标签内使用。

在较小模型规模上进行了几次迭代后(Matt 训练了一个 8B 版本的模型),他们想扩展到 70B 模型,但 Matt 没有算力进行完整的微调,所以 Sahil 为 70B 版本的模型运行了训练。

在对数据混合进行了几次迭代后,最终达到了基准测试分数非常好的程度。

Sahil 与 Matt 分享了基准测试分数和数据集,并决定发布模型,同时继续迭代数据并扩展到更大的规模。

话说这么多,简单翻译一下就是 ——Matt 不是公司的客户,Reflection 也不是一个商业项目。Sahil 完全是出于对这种方法的兴趣,才参与其中的。

初始发布

在看到结果之后,二人想尽快发布模型,并秀出基准测试的跑分。

然而,除了 Sahil 进行的一次基准测试,以及 Matt 在 Sahil 提供的 API 上进行的一些基本测试外,模型并没有经过任何的验证。

在发布前的一小时,Sahil 开始上传权重,同时使用 Hugging Face 的「Repo Duplicator」将文件转移到 Matt 的仓库中。

同样,他们并没有验证文件是否正确,或者是否能用 Transformers 库克隆和运行这个模型。

Sahil 表示,自己曾经想过要测试一下模型能否按预期工作,但由于 Matt 还有电话会议,于是模型就这样匆匆上线了。

同时发布的还有一个演示平台(playground),它最初由 Glaive 的 API 和 Matt 在 Replit 上的代理提供支持,后来被 Sahil 的另一个代理所替代。

这就是后来被 OpenRouter 等平台使用的同一个 API,也是 Artificial Analysis 用于他们基准测试的 API。这个 API 从未打算做成生产就绪的 API,它只是一个带有代理的 vllm 服务器。

对于这一系列「迷之操作」,Sahil 反思道:

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论