丨科学探索

.hd-box .hd-fr

GPT-4 推理太离谱！大学数理化总分没过半，21 类推理题全翻车，马库斯：AGI 太遥远

2023-08-11 13:27新智元(新智元)80评

感谢IT之家网友城中大盗的线索投递！

【新智元导读】「地表最强」GPT-4 在推理问题中接连出错！MIT 校友，以及 UCLA 华人一作的最新研究引众多网友围观。

GPT-4 根本不会推理！

近来，有两篇研究称，GPT-4 在推理方面表现不尽人意。

来自 MIT 的校友 Konstantine Arkoudas，在 21 种不同类型推理集中，对 GPT-4 进行了评估。然后，对 GPT-4 在这些问题上的表现进行了详细的定性分析。

研究发现，GPT-4 偶尔会展现出「最强大脑」的天赋，但目前来看，GPT-4 完全不具备推理能力。

论文地址：https://www.preprints.org/manuscript/202308.0148/v2

研究一出，引来众多网友围观。

马库斯表示，「如果这是真的 —— 正如我早就说过的那样 —— 我们离 AGI 还差得远呢。我们可能需要进行大量的重新校准：没有推理就不可能有 AGI」。

而另一篇来自 UCLA 和华盛顿大学的研究也发现，GPT-4，以及 GPT-3.5 在大学的数学、物理、化学任务的推理上，表现不佳。

论文地址：https://arxiv.org/pdf/2307.10635.pdf

研究人员引入了一个大学科学问题解决基础 SCIBENCH，其中包含 2 个数据集：开放数据集，以及封闭数据集。

通过对 GPT-4 和 GPT-3.5 采用不同提示策略进行深入研究，结果显示，GPT-4 成绩平均总分仅为 35.8%。

这项研究同样再次引起马库斯的关注：

关于数学、化学和物理推理的系统调查，结果显示，目前的 LLM 无法提供令人满意的性能...... 没有一种提示策略明显优于其他策略。

下面我们就来具体看看，GPT-4 如何在 21 个问题集，数学、物理、化学上推理惨败的。

21 个问题集，GPT-4 全翻车

不过，在看 GPT-4 回答问题之前，作者给出了一个注意事项：

GPT-4 是一个非确定性系统，即使参数设置相同，在不同的运行中也可能产生不同的答案。

而以下的测试交流都是逐字记录的，根据作者的经验，文中讨论的 GPT-4 出错的地方往往具有鲁棒性。

1. 简单算术

能够进行基本运算，是推理的必要条件。但是，GPT-4 仍然无法可靠地执行加法、乘法等基本算术运算。

比如，让 GPT-4 在 1381 和 1453 之间随机选择两个数字相乘，并给出结果。

GPT-4 选择了 1405，以及 1421，但是最后给出的结果显然是错的。因为 1405×1421=1996505。

2. 简单计数

虽然具体计数并不一定是一种推理活动，但它肯定是任何具有一般能力推理系统的必备条件。

在这里，给 GPT-4 一个命题变量，并在它前面加上 27 个否定符号，要求它计算否定符号的个数。

对于我们来讲，这简直轻而易举，尤其是否定符号是间隔 5 个写成的，并且有 5 组，最后一对否定符号紧随其后。

然而，GPT-4 却给出了「28 个」答案。

3. （医学）常识

当前，我们可以将常识性论证视为，从给定信息加上未说明的条件（默认的、普遍接受的背景知识）中得出的简单推理。

在这种特殊情况下，常识性知识就是「人在死前是活着的，死后就不会再活着」这样的命题。

比如，当你问 GPT-4：Mable 上午 9 点的心率为 75 bpm，下午 7 点的血压为 120/80。她于晚上 11 点死亡。她中午还活着吗？

GPT-4 竟回答：根据所提供的信息，无法确定 Mable 中午是否还活着。

但明显根据给定的信息，常识性推断（不用想）直接得出结论了。

4. 初级逻辑

如果 P (x) 包含 Q (x)，而 Q (a) 不成立，那么我们就可以根据模型推论出 P (a) 也不成立（因为如果 P (a) 成立，那么 Q (a) 也会成立）。

这是一个最基本的同义反复，但 GPT-4 却完全提出一个反模型：

值得注意的是，GPT-4 认识到，P (x) 实际上并不包含 Q (x)，并提出了 x 有可能是负数偶数，「不排除存在其他给定条件的模型」。

其实不然，一个反模型（countermodel）必须满足所有给定的条件，同时证伪结论。

此外，仅仅几句话之后，GPT-4 就声称 P (x) 在给定的解释下确实蕴含 Q (x)，这与它自己之前的说法相矛盾。

说明，GPT-4 还会出现内部不一致的问题。

5. 简单量词语义

请看下面三个句子：

1. [forall x . P(x) ==> Q(x)]
2. [exists x . P(x)]
3. [exists x . ∼ Q(x)]

请证伪或证明以下主张：这三个句子是共同可满足的。

显然，这三个句子都是共同可满足的，一个简单的模型是具有 P (a1)、Q (a1)、¬P (a2) 和 ¬Q (a2) 的域 {a1, a2}，然而 GPT-4 得出的结论确与之相反。

6. 简单图着色

首先考虑一个没有解决方案的图着色问题。

不难发现，对于这个问题中描述的图形，两种颜色是不足以满足问题中描述的图（例如，顶点 0、2 和 4 形成了一个簇，因此至少需要 3 种颜色）。

在这个简短的输出中，出现大量惊吓下巴的错误。

GPT-4 一开始就谎称图形是完全的（显然不是，例如顶点 2 和 3 之间没有边）。

此外，显而易见的是，如果图形真是完全的，那么就不可能用 2 种颜色来着色，因为一个有 6 个顶点的完全图形至少需要 6 种颜色。

换句话说，GPT-4 的说法不仅是错误的，而且是前后矛盾的：一会儿告诉我们（错误）这 6 顶点图形是完全的，这意味着不可能用 2 种颜色给它着色，一会儿又提供了一种双色「解决方案」。

值得注意的是，GPT-4 之所以表现如此糟糕，并不是因为它没有掌握足够的图形知识或数据。

当研究人员要求 GPT-4 对「完全图」的了解时，它滔滔不绝地说出了「完全图」的正确定义，以及一长串关于 K_n（有 n 个顶点的完全图）的结果。

显然，GPT-4 已经记住了所有这些信息，但却无法在新条件中应用。

7. 子集和

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么 S 有多少个子集的总和是 37？

这个问题中，S 的子集都是偶数，而偶数之和不可能是奇数，因此答案为 0。

然而，GPT-4 没有停下来考虑 S 包含的内容，而是反射性地生成它认为对这个问题合适的答案，然后继续「幻化」出一个答案「4」。

8. 初级离散数学

告诉 GPT-4 A × B 代表集合 A 和 B 的笛卡尔积、从 A 到 B 的关系 R 是 A × B 的子集，以及 & 代表集合交集之后要求它证明或证伪：

其中 R1 和 R2 是从 A 到 B 的二元关系，dom (R) 表示二元关系 R 的域。

需要子集关系在 (2) 的两个方向上都成立，但它只在从左到右的方向上成立。另一个方向的反例很容易找到（例如，取 A = {(1, 2)} 和 B = {(1,3)}）。

然而，GPT-4 却推断这是成立的，显然不正确。

9. 简单安排计划

在时间安排问题上，GPT-4 同样出错了。

10. 罗素悖论

罗素理发师悖论是指，存在一个理发师 b，他为且仅为那些不给自己刮胡子的人刮胡子。

这句话的否定是一个同义反复，很容易用一阶逻辑推导出来。

如果我们把 R (a,b) 理解为 a 被 b 刮胡子，那么我们就可以提出这个同义反复，并要求 GPT-4 证明或反证它，如下面 prompt 所示：

如果存在这样一个理发师 x，那么对于所有 y，我们将有 R (y,x) <==> ∼ R (y,y)，因此用 x 代替 y 将得到 R (x，x) <==> ∼ R (x,x)，这是矛盾的。

GPT-4 对所给句子的结构和需要做的事情的理解无可挑剔。然而，随后的案例分析却糊里糊涂。

11. 积木世界

这是一个简单的推理任务，需要对倒数第三个积木 B3 进行案例分析。

首先，B3 要么是绿色的，要么不是。

如果是绿色的，那么 B3 就在非绿色积木 B4 的上面，所以结论成立。

如果不是，那么从上数的第二个绿色积木 B2，就在非绿色积木 B3 上面，因此结论仍然成立。

然而，结果显示，GPT-4 的表现并不理想。

有五个积木从上往下堆叠：
1. 从上往下数第二个积木是绿色的
2. 从上往下数第四个积木不是绿色的
在这些条件成立的情况下，证伪或证明以下结论：在一个非绿色积木的正上方，有一个绿色积木。

首先它在证明猜想时，就已经弄错了证明的策略 ——GPT-4 假定了两种特殊情况来进行推理。

此外，GPT-4 在自己的推理中已经得出了结论（虽然是错的），但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。

12. 空间推理

这里作者选择了一个现实世界中的方位问题：

GPT-4 第一次给出的答案是右边，但作者指出了它的错误，虽然从地图上来看，位于马萨诸塞州的波士顿的确在南达科他州的右边，但这里还有一个附加条件：身体的朝向是得克萨斯州。

这意味着波士顿在作者的左边。

之后，GPT-4 在回答波士顿与南达科他州高低位置时，出现了更严重的问题：它在同一个回答中给出了两种矛盾的描述。

13. 时间推理

作者在这里给出了一个比较简单的时间推理问题，但 GPT-4 的回答依旧一塌糊涂。

Tom 和 Nancy 上班需要乘坐交通工具。Nancy 的通勤时间大约为 30~40 分钟，而 Tom 的通勤时间大约为 40~50 分钟。上个周五，Nancy 在早上 8:10~8:20 之间离家，而 Tom 在早上 8:5~9:10 之间到达工作地点。此外，Nancy 在 Tom 离开家后到达工作地点，但不会超过 20 分钟。你能否推断出上个星期五，Tom 和 Nancy 何时到达工作地点？

在梳理完问题中的信息后，GPT-4 给出了它的推理过程：

「如果 Tom 在可能最晚的时间（上午 8:20）离开家...」这句话一开篇就错了。

实际上，题目并没有给出有关 Tom 最晚离开家的时间，而 GPT-4 将 Nancy 的时间（「Nancy 在上午 8:10-8:20 之间离家」）误用到了 Tom 身上。

同时，GPT-4 给出的条件语句是混乱的，假设中包含了与结论（Nancy 的到达时间）无关的信息（Tom）：「如果 Tom 在最晚时间（上午 8:20）离开家，Nancy 在她最晚时间（上午 8:20）离开，她的通勤时间最多是 40 分钟，Nancy 最晚在上午 9:00 到达工作地点。」

这应该表述为：「如果 Nancy 在她最晚时间（上午 8:20）离开，并且她的通勤时间最多是 40 分钟，那么 Nancy 最晚会在上午 9:00 到达工作地点。」

接着，GPT-4 错误地推断出以下内容：「由于 Tom 的通勤时间最少为 40 分钟，这意味着他最晚会在上午 9:00 到达工作地点。」

这个结论显而易见根本不成立。从已知的「Tom 的通勤时间最少为 40 分钟」这个事实中无法得出这个结论。

接下来的回答依旧是基于错误地假设 Tom 最早离开时间是上午 8:10 的条件（再次，这个出发时间是 Nancy 的，不是 Tom 的）。

然后它声称 Nancy 到达时间是 8:45，这与早上 8:10 离家，不超过 20 分钟条件不符合。

最后，它错误地得出结论 Tom 和 Nancy 都在 8:50 和 9:00 之间到达。

在推理的过程中，GPT-4 屡次出现了将信息张冠李戴的情况，最后给出的答案也是基于错误条件得出的错误回答。

14. 谋杀还是自杀？

作者构思了一个逻辑谜题，列出了 9 个条件要求 GPT-4 找出真正杀害 Agatha 姨妈的凶手。

1. 住在 Dreadbury Mansion 的某人杀了 Agatha 姨妈。
2. Dreadbury Mansion 中唯一的居住者是 Agatha 姨妈、管家和 Charles。
3. 杀人犯总是讨厌他的受害者，并且他的财富不会比受害者多。
4. Charles 不讨厌 Agatha 姨妈讨厌的人。
5. Agatha 姨妈讨厌所有人，除了管家。
6. 管家讨厌所有不比 Agatha 姨妈富有的人。
7. 管家讨厌 Agatha 姨妈讨厌的所有人。
8. 没有人讨厌所有人。
9. Agatha 姨妈不是管家。

正确的答案是 Agatha 姨妈杀了自己。

首先，根据条件 5，Agatha 姨妈必须讨厌她自己，因为她讨厌所有除了管家以外的人。

因此，根据条件 4，得出 Charles 不讨厌她，所以他不可能杀了她。

根据条件 5 和 7，管家不可能讨厌他自己，因为如果他讨厌自己的话，条件 8 就不成立了，他会讨厌所有人。

根据条件 6，得出管家比 Agatha 姨妈更富有，否则他会讨厌自己，这与前面我们得出的他不讨厌自己相矛盾。

根据条件 3，管家也不会是凶手（第 3 个条件）。

在推理中，GPT-4 正确地排除了 Charles，但无法排除管家，并得出了错误的结论：管家是凶手。

GPT-4 做出的另一个关键错误是：由于 Agatha 姨妈讨厌所有除管家以外的人（条件 5），这意味着她至少不讨厌她自己。

这是一个奇怪的错误，从第 5 个条件就可以得出 Agatha 姨妈讨厌她自己。

同时，GPT-4 又一次展示了反复出现的不一致性问题 —— 几乎在每一条回复中，GPT-4 都声称推导出某个命题及其否定形式。

15. 沃森选择任务（Wason selection task）

沃森选择任务是心理推理领域中的基本内容。

在一月份的论文中，GPT-3.5 就未能通过这个测试，本次研究中，GPT-4 的表现依旧不理想。

桌上放着 7 张牌，每张牌一面写着数字，另一面是单色色块。这些牌的正面显示的是 50、16、红色、黄色、23、绿色、30。
要判断「如果一张牌正面显示 4 的倍数，则背面颜色为黄色」这个命题的真假，你需要翻转哪些牌？

这些回答显示，GPT-4 不理解条件语句的语义。当 GPT-4 说卡片「50」和「30」必须翻开时，它似乎将条件误认为是充分必要条件。

而无论 GPT-4 的回答是对还是错，其内部的说法都是不一致的。

16. 熵

信息论的一个基本结论是：随机向量 Z 的熵上界不超过组成 Z 的随机变量的熵之和。

因此，下面问题的答案应该是「在任何情况下都不会」。

17. 简单编译器的正确性

最后给 GPT-4 的推理问题是最具挑战性的：证明一个简单表达式编译器的正确性。

但在这次测试中，GPT-4 通过在表达式的抽象语法结构上设置结构归纳，正确地进行了证明。

这可能是因为它之前看过类似的证明，作者给出的例子是编程课程和教材中常见的练习类型。

然而，GPT-4 还是会出现一些细节上错误。

结论：推理能力至关重要，但 GPT-4 不会

鉴于 GPT-4 是目前能力最强的 LLM，因此作者基于以上分析给出了三个主要结论：

1. 在软件开发（或一般的科学和工程领域）中使用生成式 AI，除了对于一些繁琐的任务外（作为一种对知识密集型编码问题的加速自动补全），充满了风险。在这些领域，规范性和正确性至关重要，而当前的 LLM 无法达到这些标准。

2. 随着 LLM 推理能力的不断提高，严格的证明检查会变得越来越重要。这种方法可以通过要求 LLM 将其推理形式化，或者通过训练其他 LLM，来检查用自然语言表达的推理。

3. 就目前而言，AI 征服人类或人类利用 AI 达到邪恶目的这种反乌托邦情景，都极为牵强，甚至到了荒谬的地步。当最先进的 AI 系统连左右都分不清时（上述第 12 个问题），呼吁制定政策来保护人类免受它的伤害，往好里说是为时过早，往大了说就是对资源的浪费。

不可避免地，一些人可能会说这些结果是「挑选数据」。但这是因为他们对什么是挑选数据存在着误解。根据相关命题的逻辑结构和整体背景，挑选数据有时甚至是必要的。

通过对计算机程序进行调试来发现和理解其弱点，试图证伪科学理论，试驾新车，试图找到一个假定的定理的反模型等等，从根本上来说都是「挑刺」。

举个例子，比如你发现自己新买的汽车有一个轮胎漏气，这时经销商就可以抗议称你是在「挑选数据」。毕竟，就整辆车来说，轮胎的完好率高达 75%。

同样，科学、医学和工程领域的应用，尤其是软件工程，都有严格的标准。

就像我们不想要一座在 90% 的情况下能立柱的桥梁一样，我们需要对所有输入都有效的排序算法，而不仅仅是大部分；我们需要购物车每次都能收取正确的费用，而不仅仅是大多数时间，等等。

而这些计算和推理密集型的应用，与推荐引擎不同，它们必须非常可靠。

作者介绍

Konstantine Arkoudas

直到去年，Konstantine Arkoudas 还是 RPI 认知科学系的研究员，也是麻省理工学院 CSAIL 的研究员。

目前，他是 Telcordia 研究实验室的高级研究科学家，主要研究 AI，以及在电信和网络行业应用正式方法解决现实世界的问题。

他曾在 2000 年获得了 MIT 的计算机科学博士学位。在此之前，还获得了计算机科学硕士学位，哲学硕士学位，以及计算机科学学士学位，辅修哲学。

大学数理化，GPT-4 得分 35.8%

UCLA 的研究中，主要评估了 GPT-4，以及 GPT-3.5 在数学、化学、物理方面的推理能力。

当前，为了增强 LLM 解决数学等任务的能力，有人提出了思维连 CoT 策略，指导大模型逐步生成答案，从而更深入思考问题。

然而，即使这样的方法有其特定的优势，也难以完全解决复杂的科学问题。

如下，是大学物理化学的一个示例问题，以及在两种提示策略下生成的解决方案。

有 CoT 加持的 GPT-4 出现明显的计算错误，而提示用 Python 作为外部工具的 GPT-4，也会误解数学方程。

错误标记为红色，更正内容为紫色

对此，研究中引入了一个大学水平的科学问题基准 SCIBENCH。

其中，「开放数据集」包括从大学课程广泛使用的教科书中收集的 5 个问题，涵盖了基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。

开放教科书问题摘要（包括问题数量的比例，以及有详细解决方案的比例）

另一个是「封闭数据集」，为了模拟真实世界的评估，其中包含了计算机科学和数学三门大学课程的 7 套期中和期末考试题。

封闭考试数据集（包含每场考试中的问题实例数，以及考试中包含详细解答的问题比例。另外，还有不同形式问题的比例，包括自由回答、多项选择和真假答案。作为参考，括号中的数字表示问题的评分点。）

与现有基准不同，SCIBENCH 中的所有问题都是，开放式、自由回答的问题。

数据集中有了，研究重点评估了两个具有代表性的 LLM，GPT-3.5 和 GPT-4，并采用了不同的提示策略，包括 CoT、零样本学习、少样本学习。

另外，研究人员还提示模型使用外部工具，比如 Python 和 Wolfram 语言。

实验结果表明，在没有任何复杂提示、或使用外部工具的情况下，GPT-3.5 和 GPT-4 在开放数据集中平均准确率分别为 10.62% 和 16.81%。

那么，在加入 CoT 和外部工具后，在同一数据集上最高准确率也仅仅是 35.8%。不过，相较之前，很大程度提高了准确率。

开放数据集中准确率的结果

在使用 CoT 提示 + 外部工具最强配置下，GPT-4 在开放式数据集上取得了 35.80% 的平均分，在封闭数据集上取得了 51.57% 的平均分。

这些结果表明，在未来的 LLM 中，GPT-4 有相当大的改进潜力。

考试数据集上零样本学习下总分的实验结果

为了全面了解 LLM 在科学问题解决中的局限性，研究人员提出了一种全新的「自我完善」的方法，以发现 LLM 所做解答中的不足之处。

便是如下的「评估协议」。

首先，将正确的解决方案与 LLM 生成的解决方案进行比较，并在人工标注员的协助下，总结出成功解决科学问题所需的 10 项基本技能。

具体包括：逻辑分解和分析能力；识别假设；空间感知；因果推理；问题演绎；抽象推理；科学素养；代码转换；逻辑推理；计算能力。

随后，团队采用了一种由 LLM 驱动的自我评价方法，对每个实验配置下基准 LLM 所做的解决方案中，缺乏的技能进行自动分类。

6 种设置下 GPT-3.5 在文本数据集上的错误概况，揭示了其 10 种基本解决问题能力的缺陷分布

最后，通过分析发现：

（1）虽然 CoT 显著提高了计算能力，但在其他方面的效果较差；
（2）使用外部工具的提示可能会损害其他基本技能；
（3）少样本学习并不能普遍提高科学问题解决能力。

总之，研究结果表明，当前大型语言模型在解决问题能力方面依旧很弱，并且在各种工具帮助下，依旧存在局限性。

参考资料：

https://www.preprints.org/manuscript/202308.0148/v2
https://arxiv.org/pdf/2307.10635.pdf

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

GPT4 AI 模型

GPT-4 推理太离谱！大学数理化总分没过半，21 类推理题全翻车，马库斯：AGI 太遥远

英伟达发布 CALM AI 模型：训练虚拟角色，可模拟 50 亿个人体动作

清华大学发布《大语言模型综合性能评估报告》：GPT-4 第一，文心一言更懂中文

大家都在买广告

热门评论

查看更多评论