GPT-4o mini 登顶大模型竞技场，OpenAI 阿尔特曼：两个月内微调免费

刚刚，GPT-4o mini 版迎来“高光时刻”—— 登顶了 lmsys 大模型竞技场，和满血版并列第一，还把 Claude 3.5 甩在了身后。

不同于一般的数据集测评，大模型竞技场是用户自己出题、用脚投票的结果，无法通过“刷题”来走捷径，因此更为真实。这个成绩一出，连 CEO 阿尔特曼都激动起来了：

面对评估成绩，我们本来是尽量矜持的，但是看到 GPT-4o mini 表现和满血版一样，价格却只有 1/20，内心还是很激动。

网友看到之后表示 OK，但更关心的还是 GPT-4o 发布会上演示的“Her”到底啥时候上线。

与此同时，OpenAI 也送来了另一个好消息，将为开发者送出福利 ——GPT-4o mini 的微调将逐步开放，目前已开放给 tier 4 和 tier 5 用户，然后会陆续扩展范围。而且从即日起到 9 月 23 号，每天都能免费使用 2 百万的训练 token。

mini 与满血版平起平坐

经过 80 多款模型上百万轮的 1v1 比拼，GPT-4o mini 在 lmsys 榜单上的成绩与满血版只差 7 分。按照 lmsys 榜单的排法，这 7 分的差距没有影响名次，把两个型号算作了并列第一。

紧随其后的是 Claude 3.5 和 Gemini 家族，还有 GPT-4 的另外两个版本。

如果我们查看 GPT-4o mini 的原始数据，会发现它 0.6 的平均胜率仅次于满血版本。

单独看两者比拼的结果，同样是打得不相上下。

之所以 lmsys 的成绩受到关注，在于它拥有一套独特的比拼方式 —— 不用数据集，而是让用户自己出题，随机拉两个模型 1 对 1battle，然后选择哪个模型表现更好。

在给出选择之前，模型是匿名的，用户也不知道是哪两个模型正在比拼，如果模型自己说漏嘴则投票无效。

这样得到的分数更加真实，既避免了“刷题”获取虚高分数的可能，也更加接近用户体验。这个大模型竞技场，最近还登上了机器学习顶会 ICML2024。

而且，lmsys 的评测也非常受 OpenAI 的青睐，GPT-4o mini 正式上线之前的早期版本，就曾化名为 gpt-mini 在其中打榜。当时就已经排行第 4，和 GPT4-Turbo 处在同一水平。

更早一些，GPT-4o 上线之前也是化名 gpt2-chatbot，在 lmsys 上搞起了测试。

不过也有人提出质疑，表示虽然 GPT-4o mini 表现确实很好，但是要说它超过了 Claude 3.5 sonnet 就有些言过其实了。

有人更是直言，lmsys 方法的完善性已经开始瓦解，需要做出改变，否则将不再是一个有用的测试基准。

mini 版本的推出，主打的就是一个性价比。每百万输入 / 输出 tokens，价格分别为 15 美分和 60 美分（约 1.09/4.36 人民币），甚至还不到 3.5 Turbo 的一半。

如果和两年前 GPT-3 的 text-davinci-003 版（当时最好的模型）相比，价格更是下降了 99%。

而且除了把小模型开放给用户，OpenAI 还搞出了新鲜玩法 —— 在“超级对齐”团队的一篇遗作中，使用了参数量为大模型千分之一或百分之一的小模型，来对大模型进行优化。

实验中，大小两个模型相互“博弈”，大模型需要不断优化调整自己的输出，让小模型相信自己说的是真话。

在这个“博弈”的过程中，大模型的能力得到了提升，在精度没有明显损失的情况下获得了大幅度的可理解性提升。

除了 OpenAI，其他公司也都纷纷搞起了小模型。比如在 GPT-4o mini 之前，谷歌和 Anthropic 就分别推出了 Gemini Flash 和 Claude 3-Haiku。

甚至可以说，GPT-4o mini 就是 OpenAI 对两家的反击，无论是性能还是价格都超越了这两个模型。

在 GPT-4o mini 发布的同一周，抱抱脸 Hugging Face，以及“欧洲 OpenAI”Mistral 都相继推出了小号模型。甚至苹果也推出了自己的 7B 模型，而且一次性开源了全部训练过程和资源。

总之，在性能足以满足使用需求的前提下，小模型无疑是一种更经济实惠的选择。同时，更小的规模也意味着有可能在端侧运行，在隐私保护等方面显现出优势。

这样就不难理解，“小”模型为什么也越来越卷了。

参考链接：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。