GPT-4 升级被曝引入 Q*：推理 / 数学更强废话更少，OpenAI 重夺竞技场王位

2024-04-12 18:33量子位(明敏)42评

感谢IT之家网友Diixx的线索投递！

啥？新版 GPT-4 是在 Q * 的输出上微调的？

在竞技场重回榜一的新版 GPT-4 Turbo，成功再次踩中大家嗨点。

它此次的性能提升体现在数学、推理、代码上，而且输出内容废话更少。

最让大家感到兴奋的是其数学 / 推理能力，现在可以在一些问题上完胜其他大模型。比如“求 y=x^4-5x^2-x+4 和 y=x^2-3x 交点的 y 坐标之和。”只有最新版 GPT-4 Turbo 能测出来。

这条推特被公开承认自己参与过 Q * 的 Lukasz Kaiser 转发。

Noam Brown 也发推表示新版 GPT-4 Turbo 在推理能力上大幅提升 —— 要知道，这位 OpenAI 科学家一直被外界认为正在研究 Q*。

各方信息汇总后，网友们一拍脑袋反应过来，这其中会不会就引入了 Q * 啊？

数学方面的提升意味着其中可能包含了一个数学模型，可能是 Q*。

（以及他的数学题测试推特被 OpenAI 的人转发了）

好家伙，难道 OpenAI 在悄悄搞大事？

新 GPT-4 的“新马脚”？

OpenAI 官方公告表示，最新版本的 GPT-4 Turbo 全方位大提升，现在 ChatGPT 用户可直接体验。

网友立马冲去实测，有人给出评估结果，特别是数学 / 推理能力有了重大提升。

实际问题测试中，在多个数学推理题上，GPT-4 Turbo 都没有翻车，但是如 Command-R plus、Clauede-3 Opus 等都有失误。

比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层，最后都会停在一层。GPT-4 Turbo 理解了这层逻辑，最后给出了正确答案。

还有在修改二叉树问题上，GPT-4 Turbo 不仅回答正确，而且过程清晰完整。

同时在“大海捞针”能力上，与之前版本对比，最新 GPT-4 Turbo 已经是初版 GPT-4 能力的4.3 倍。

竞技场的结果表明，在代码能力方面，GPT-4 Turbo 也更强了。

文本输出方面变得更加简洁。

生成代码也少了很多废话（下图右侧为新版本）。

有人补充说，生成速度上也更快了。

现在 Q * 已经成了 OpenAI 的流量密码了，只要出现这个关键字，网友们都会兴奋不已。

毕竟当初奥特曼宫斗大戏就和它有关联，还有人发出警告，Q * 预示着 AGI 即将出现。

不过官方一直没有公开承认过这个项目的存在，奥特曼拒绝回答，Transformer 作者公开承认参与 Q * 也被 OpenAI 公关跳起来捂嘴。

从目前各方透露的信息来看，Q * 专注于逻辑和数学推理能力，数学能力突出。

Transformer 作者之一 Lukasz Kaiser承认自己参与了这个项目。

德扑 AI 之父、前 FAIR（Meta）研究科学家 Noam Brown 也被视为是 Q * 项目的重要成员（推测来自 LeCun）。

他加入 OpenAI 的动作也被外界视为分析 Q * 的一个线索，“有理由怀疑 Q 是将 LLM 和 AlphaGo 结合起来，并用强化学习进行训练”。

Noam Brown 开发出了第一个在打扑克牌上超越人类的 AI，后来加入 Meta 致力于让 AI 学会玩 Diplomacy（外交游戏）。

目前，关于 Q * 的准确信息还是非常少。可能奥特曼还在等一个合适的时机来回应外界。

btw，网友们意外捉到总裁 Brockman 转发的一个视频演示里的提示词是：

创建一个 python 脚本，使用 pytube 库从 YouTube 下载视频。

看来大家拿 GPT-4 干的事也都差不多嘛（doge）。

参考链接：

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

谷歌 Gemini 流量已是 ChatGPT 的四分之一

OpenAI 宣布向 ChatGPT 付费用户开放新 GPT-4 Turbo 模型

OpenAI CEO 阿尔特曼想要建立一个全球 AI 联盟，加快人工智能发展

大家都在买广告

热门评论