.hd-box .hd-fr

68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩

2025-05-02 20:41量子位(明敏)0评

大模型竞技场的可信度,再次被锤。

最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。

它指出,如今被视为 LLM 领域首选排行榜的 Chatbot Arena,存在诸多系统问题。比如:

大神卡帕西也站出来表示,他个人也察觉出了一些异样。

有一段时间,Claude-3.5 是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。

对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应:

快速刷榜不符合模型进步实际情况

具体来看这项研究,它收集了 243 个模型的 200 + 万场竞技场 battle,并结合私人真实测试,通过模拟实验确定了不同情况下对模型排名的影响。

主要挖掘出了 4 方面问题。

第一,私人测试和有选择性的结果报告。

少数大模型厂商(如 Meta、Google、Amazon)被允许私下测试多个模型变体,并只公开最佳表现的版本。

比如,Meta 在 Llama 4 发布前曾私下测试 27 个变体,加上多模态、代码等榜单,Meta 可能一共测试过 43 个变体。

这种“最佳 N 选 1”策略导致排名膨胀。

例如,当测试 5 个变体时,期望分数增加了约 20 分;当测试 20 个变体时,增加了约 40 分;当测试 50 个变体时,增加了约 50 分。

研究团队认为,当多个大模型厂商采用这种策略时,他们实际上是在相互竞争各自变体分布的最大值,而非真实的模型能力

我们观察到,像 Google、OpenAI 和 xAI 在短时间内轮番霸榜,表明他们都在采用类似的策略。

例如,2024 年 11 月期间,Google 的 Gemini (Exp 1114)、OpenAI 的 ChatGPT-4o (20241120) 和 Google 的 Gemini (Exp 1121) 在一周内先后占据榜首。类似地,2025 年 3 月 4 日,OpenAI 的 GPT-4.5 和 xAI 的 Grok-3 同一天争夺榜首位置。

这种排行榜的快速变化不太可能反映真实的技术进步,因为开发和完善一个全新的基础模型通常需要数月时间。

相反,这很可能是多个大模型厂商同时使用“最佳 N 选 1”策略的结果,每个提供商都试图优化自己变体池中的最大值。

此外,团队还发现大模型厂商可以撤回表现不好的模型。

第二,数据访问不平等。专有模型获得的用户反馈数据显著多于开源模型。

Google 和 OpenAI 分别获得了约 19.2% 和 20.4% 的所有测试数据,而全部 83 个开放权重模型仅获得约 29.7% 的数据。

第三,大模型厂商使用竞技场数据进行训练,排名可以显著提升。

我们观察到,将竞技场训练数据比例从 0% 增加到 70%,在 ArenaHard 上的胜率从 23.5% 提高到了 49.9%,实现了一倍多的增长。

这还是一个保守估计,因为部分提供商拥有数据访问优势。

第四,研究发现,许多模型被”静默弃用”(减少采样率至接近 0%)。

在 243 个公开模型中,有 205 个被静默弃用,远超过官方列出的 47 个。这种做法特别影响开源和开放权重模型,会导致排名不可靠。

在提出问题后,研究团队还给出了 5 点改进建议:

这项研究由 Cohere 团队、普林斯顿大学、斯坦福大学等机构研究人员共同提出。

其中 Cohere 也是一家大模型厂商,由 Transformer 作者 Aidan Gomez 等人创办,推出了 Command R + 系列模型。

“竞技场不应该是唯一基准参考”

大模型竞技场诞生 2 年来,因为机制的特殊性,其参考价值越来越高,大厂发模型也必来这里打榜,甚至是将未发布模型提前在此预热造势。

它最大的优势在于基于人类偏好评估,用户可以在同一平台上同时运行多个聊天机器人模型,如 GPT-4、ChatGPT-3.5 等,并针对相同的问题或任务进行比较分析,可以更直观感受不同模型的差异。

最近一段时间,由于 Llama4 刷榜风波,给竞技场的可信度也造成了一定影响。

对于这篇质疑论文,官方现在已做出回应。反驳了一些问题:

至于情况到底如何,可能还要等子弹飞一会儿。

不过这倒是也给 AI 社区提了个醒,或许不能只参考一个榜单了。

卡帕西就给出了一个备选项:OpenRouter。

OpenRouter 可以提供一个统一 API 接口来访问使用不同模型,而且更加关注实际使用案例。

尽管在多样性和使用量上还不够优秀,但我认为它有很大潜力。

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:明敏,原标题《68 页论文再锤大模型竞技场!Llama4 发布前私下测试 27 个版本,只取最佳成绩》

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

下载IT之家APP,分享赚金币换豪礼
相关文章
大家都在买广告
热门评论
查看更多评论