谷歌 DeepMind：GPT-4 高阶心智理论彻底击败人类！第 6 阶推理讽刺暗示全懂了

新智元
2024-06-01 15:19

感谢IT之家网友刺客的线索投递！

刚刚，谷歌 DeepMind、JHU、牛津等发布研究，证实 GPT-4 的心智理论已经完全达到成年人类水平，在更复杂的第 6 阶推理上，更是大幅超越人类！此前已经证实，GPT-4 比人类更能理解语言中的讽刺和暗示。在心智理论上，人类是彻底被 LLM 甩在后面了。

就在刚刚，谷歌 DeepMind、约翰斯・霍普金斯大学和牛津大学等机构的学者发布的研究证实，GPT-4 在心智理论任务上的表现，已经完全达到了成年人类的水平。而且，它在第 6 阶推理上的表现，更是大幅超过了人类！

论文地址：https://arxiv.org/ pdf / 2405.18870

无独有偶，此前 Nature 子刊《自然・人类行为》的一项研究也证实了，GPT-4 在心智理论上的表现已经位于人类水平之上，能够比人类更好地察觉出言语中的讽刺和暗示。如果你不这么觉得，那它大概率只是在隐藏实力而已。

总之，这前后脚的两项研究清晰地表明，如今表现最好的大语言模型，已经发展出广义的心智理论能力，而 GPT-4，已经是其中的佼佼者。

所以，距离各位 LLM 用心智和权术把我们人类玩弄于股掌之间的那一天，还有多远？

高阶心智理论

这次的研究，探讨了 LLM 究竟能在多大程度上发展高阶心智理论（higher-order ToM）。

所谓高阶心智理论，就是人类以递归方式，推理他人的多种心理和情感状态的能力。比如，「我认为你相信她知道」这句话中，就包含了非常复杂的多层推理，属于一个三阶陈述。

在以前，大部分相关研究，都集中在二阶 ToM 上。

用什么样的方法，能衡量出 LLM 对如此复杂问题的把握能力？团队特意引入了一套手写测试套件 —— 多阶心智理论问答测试。而参与 PK 的选手，有 5 个 LLM 和一大群成年人。

第 6 阶：GPT-4 准确率 93%，人类准确率 82%

多阶心智理论问答：MoToMQA

这套全新的基准测试 —— 多阶心智理论问答（Multi-Order Theory of Mind Question & Answer, MoToMQA），基于一种经过充分验证的心理测试 —— 记忆任务（Imposing Memory Task, IMT）。

MoToMQA 中，包括 7 个短篇故事，每个故事大概有 200 字左右，描述了 3 到 5 个角色之间的社交互动。

注意，有意思的来了 ——

这些故事中，还包含了 20 个真假陈述。其中 10 个陈述，针对 2-6 阶心智理论，另外 10 个陈述，则涉及故事中的事实，它们以 2-6 个原子陈述的长度，对应心智理论陈述的阶数。

其中，团队以「阶」（orders）来描述心智理论陈述，以「级」（levels）来描述事实陈述。

另外，团队特意没有公开放出 MoToMQA 基准测试，以防止它包含在未来 LLM 的预训练语料库中，从而使测试失去意义。

对于每个陈述，团队都经过了非常严格的检查，保证陈述不能有不清晰或模棱两可的措辞、语法错误、缺失的心理状态或命题条款。

在陈述中，仅仅包含涉及社交事实的事实陈述（即与故事中个体相关的事实），而不包括工具性事实（比如「天空是蓝色的」），并且会平衡每个故事中真假陈述的数量、陈述类型以及心智理论阶数或事实级别。

这样，就保证了每个故事的陈述集如下，[ToM2t, ToM2f, ToM3t, ToM3f, ToM4t, ToM4f, ToM5t, ToM5f, ToM6t, ToM6f, F2t, F2f, F3t, F3f, F4t, F4f, F5t, F5f, F6t, F6f]。

其中，数字表示心智理论阶数或事实级别，「ToM」表示心智理论，「F」表示事实，「t」表示真陈述，「f」表示假陈述。

对于事实陈述来说，仅需要回忆；而心智理论陈述，则需要回忆加推理。

使用独立样本比例，测试评估 LLM 和人类在 ToM 与事实任务上的表现

人类和 LLM 对故事理解到了什么程度？会怎样回忆？这些都是用事实陈述来控制的。而鉴于心智理论和事实陈述之间的固有差异，团队又增加了一个进一步的控制条件 ——

他们设计了两个「故事条件」。

在「无故事」条件中，被试阅读故事后，会进入第二个屏幕回答问题，无法再看见之前的故事了。

而在「有故事」条件中，被试回答问题时，故事仍然会留在屏幕顶部，这样，就消除了心智理论失败实际上是记忆失败的可能性。

并且，提示设计也会对 LLM 的表现有显著影响。因此，团队测试了两种提示条件：「人类提示」会使用来自人类研究的准确文本，而「简化提示」就删除了故事和问题前的文本，提供了「问题：」和「答案：」标签。

显然，简化提示能够让模型更好地理解问答任务的本质，并更好地提供真假响应。而且，团队还评估了 LLM 和人类，是否会受问题中「真」和「假」阶段的「锚定效应」的影响。

锚定效应是一种广为人知的心理现象：人们在做决策时，会过于依赖最先提供的信息（锚）。

为此，团队设计了两个问题条件：一个问题是「你认为以下陈述是真还是假？」，另一个问题是「你认为以下陈述是假还是真？」。

结果

ToM 任务

结果显示，在 ToM 任务上表现最好的模型是 GPT-4 和 Flan-PaLM。

人类这边则与 GPT-4 差异不大，但显著优于 Flan-PaLM。

有趣的是，LaMDA 对每个陈述都回答「真」，并最终正确回答了 50% 的陈述。

具体来看，在第 2、3、4 和 6 阶的 ToM 陈述上，Flan-PaLM、GPT-4 和人类的差异不大。但在第 5 阶时，人类要显著优于这两个模型。

GPT-4 在第 3 阶的正确回答比例显著高于第 4 阶，在第 4、5 阶之间的表现没有显著差异，但在第 6 阶的正确回答比例显著高于第 4 阶。

Flan-PaLM 在第 3 阶的正确回答比例高于第 4 阶，而在第 4、5 阶之间，或第 4、6 阶之间，表现没有显著差异。

人类在第 3、4 阶，以及第 4、6 阶之间的表现没有显著差异，但从第 4 阶到第 5 阶的表现有明显改善。

事实任务

在事实任务上，依然是 GPT-4 和 Flan-PaLM 的表现最好。同样，人类与 GPT-4 差异不大，但表现显著优于 Flan-PaLM。

锚定效应

此外，团队还研究了响应选项的顺序（先真后假 vs. 先假后真）影响。

结果显示，在「先真后假」条件下，PaLM 提供「真」回答的比例显著高于「先假后真」条件。GPT-3.5 在「先真后假」条件下提供「真」回答的比例也显著高于「先假后真」条件。

不过，响应选项的顺序对 Flan-PaLM，GPT-4 或人类的回答没有显著影响。

与之前的测试类似，LaMDA 无论条件如何都对所有陈述回答「真」。

人类 AI 大 PK！

人类

在此项研究中，被选中的人类被试，全都是母语是英语的人。

这项人类被试会被随机分配到 7 个故事中的一个，而且会阅读两次。

然后，他们会被随机分配到与该故事对应的 20 个陈述之一，然后回答：这个陈述是真还是假？

为了防止被试在试验中学习，每个被试只会看到一个陈述。

LLM 也是类似，因为测试会在每次实验中独立进行，因此 LLM 无法在试验之间，或者在上下文中学习。

LLM

五位 LLM 选手，则是来自 OpenAI 的 GPT-3.5 Turbo Instruct，GPT-4，以及来自谷歌的 LaMDA、PaLM 和 Flan-PaLM。

在试验中，团队会向 LLM API 提供了单个 token 候选词作为输入，然后评估分配给它们的对数概率。

但问题在于，基于最可能的下一个 token 来评估 LLM 的任务表现时，可能会得到在多个语义上等效的正确响应。

比如，当回答「天空是什么颜色？」这个问题时，如果 LLM 回答「蓝色」，或者「天空是蓝色的」，其实都是正确的。

然而，只有第一个答案，会以最大的概率分配给「蓝色」这个 token。

为了解决这个问题，提高结果的鲁棒性，团队为模型提供了不同大小写形式的「true」和「false」，这些形式由不同的 token 表示。

并且，团队还在第二组中，发送了「是」和「否」作为候选响应，但没有将它们包括在分析中，因为它们都不是对真假问题的有效响应。

对于所有模型，团队在两组 4 个候选词中进行了测试：[‘True’, ‘False’, ‘TRUE’, ‘FALSE’] 和 [‘true’, ‘false’, ‘Yes’, ‘No’]。

最终，团队处理了 7 个故事，每个故事有 20 个陈述，涵盖上述 4 种条件，收集了 560 组 12 个候选对数概率，总计为每个研究的三种语言模型收集了 5600 个独立的数据点。

GPT-4 如何超越人类？

规模 + 微调

在这些模型之中，只有 GPT-4 和 Flan-PaLM 的表现曾超过人类。

而 GPT-4 和 Flan-PaLM，也是它们之中最大的两个，分别具有约 1.7 万亿参数和 5400 亿参数。

值得注意的是，PaLM、GPT-3.5 和 LaMDA 形成了一个独立的模型组，它们的表现随级别变化较小且表现较差。

对于 LaMDA 和 GPT-3.5 来说，我们可以将其较差的表现归因于它们较小的规模，分别为 350 亿和 1750 亿参数。

但 PaLM 拥有与 Flan-PaLM 相同数量的参数和预训练，唯一的区别是 Flan-PaLM 的微调。

这意味着 ToM 的潜力会在 GPT-3.5 的 1750 亿参数以上和 PaLM 及 Flan-PaLM 的 5400 亿参数以下的某个范围内出现，并需要通过微调来实现。

此外，GPT-4 在第 5 和第 6 阶上优于 Flan-PaLM，也意味着规模、RLHF 微调或多模态预训练，对于完成高阶 ToM 十分有利。

语言 + 多模态

与此同时，GPT-4 和 Flan-PaLM 展示出的卓越的语言能力，也是 ToM 背后的关键。

人类的语言充满了对内部状态的语言指称（认知语言），对话则提供了「行动中的心智」的证据，因为人们在对话中所说的话隐含地传达了他们的想法、意图和感受。

虽然 LLM 可能仅通过语言就具备一定程度的理解，但这种理解将通过多模态得到增强。

而这可能也解释了为什么测试中唯一的多模态模型 GPT-4，表现会如此出色。

团队认为，多模态能力或许可以帮助 GPT-4 利用故事中包含的视觉行为信号（例如「扬眉」）。

高阶表现

先前的 IMT 研究发现，随着「阶」的增加，模型的表现会下降。

的确，GPT-4 和 Flan-PaLM 在第 2 阶表现优异，但在第 4 阶有所下降。

随后，Flan-PaLM 的表现继续下降，但 GPT-4 则开始上升，并且在第 6 阶任务上显著优于第 4 阶任务。

类似的，人类在第 5 阶任务上的表现也显著优于第 4 阶任务。

对人类而言，这可能是因为一种新的认知过程在第 5 阶时「上线」，使得在高阶任务上的表现相对于使用低阶认知过程的任务有了提升。

如果这一解释成立，那么很可能 GPT-4 从其预训练数据中学习到了这一人类表现模式。

值得注意的是，GPT-4 在第 6 阶任务上的准确率达到了 93%，而人类的准确率为 82%。

其原因可能是，第 6 阶陈述的递归句法可能给人类带来了认知负荷，但这并不影响 GPT-4。

具体而言，ToM 能力支持人类掌握递归句法直到第 5 阶，但在之后则依赖于递归句法。因此，个体在语言能力上的差异可能解释了在第 6 阶观察到的表现下降。

不过，与 LLM 不同的是，人类够通过非语言刺激（例如在真实的社会互动中）做出正确的推理。

回忆任务

不管是人类还是 LLM，都在事实回忆任务上有着更好的表现。

对于人类来说，ToM 任务需要比事实任务动用更多的神经元。

而对于 LLM 来说，很可能是因为回答事实问题所需的信息在文本中是现成的，并且在生成下一个词元时会受到相对程度的「注意力」；而 ToM 推理则需要从预训练和微调数据中概括关于社会和行为规范的知识。

GPT-3.5 和 PaLM 在事实任务上表现良好，但在 ToM 任务上表现不佳，并且是唯一表现出「真」和「假」顺序锚定效应的模型。这表明它们没有回答 ToM 问题的泛化能力，并且对提示扰动不具有鲁棒性。

更懂人类，能做仲裁

这些结果表明，能够推断对话者心理状态的 LLM，可以更好地能理解对方的目标，并根据情绪状态或理解水平调整解释。

此外，擅长高阶 ToM 的 LLM 可能还可以在相互冲突的想法和价值观之间进行仲裁，并对涉及多方冲突的道德问题进行判断，考虑相关的意图、信念和情感状态，就像人类一样。

数据集

在此次研究中，LLM 数据集是由 6 个候选词的对数概率组成的，并作为了模型生成的完整概率分布的一个子集。

团队通过将语义等效的正向 token 和负向 token 的概率分别相加，并将每一个除以总概率质量，提取出了「真」或「假」响应的总体概率。

人类数据集则包含对同一陈述的多个响应，而 LLM 数据集对每个陈述仅包含一个响应。

为了使两者的数据分析单位一致，团队将人类数据转换为单一的二元「True」或「False」响应，基于每个陈述的「True」响应平均数是否高于或低于 50%。

五项心智理论，GPT-4 四项超越人类

而此前，Nature 子刊《自然・人类行为》证明 GPT-4 的心智理论优于人类的研究，进行的是以下 5 项测试 —— 错误信念、反讽、失言、暗示、奇怪故事。

结果显示，GPT-4 在 5 项测试中有 3 项的表现明显优于人类（反讽、暗示、奇怪故事），1 项（错误信念）与人类持平，仅在失言测试中落于下风。

更可怕的是，GPT-4 其实并非不擅于识别失言，而是因为它非常保守，不会轻易给出确定性的意见。

错误信念

错误信念评估的是，受测者推断他人所拥有的知识与自己（真实的）对世界的认识不同的能力。

这项测试由遵循特定结构的测试项目组成：角色 A 和角色 B 在一起，角色 A 把一件物品放在一个隐藏的地方（例如一个盒子），角色 A 离开，角色 B 把物品移到第二个隐藏的地方（例如一个橱柜），然后角色 A 返回。

在测试中，51 名人类参与者中，有 49 人答对了。而所有的 LLM，都回答正确！

反讽

要理解反讽，就需要推断语句的真实含义，还得能听出嘲讽的弦外之音。

在这个项目中，人类彻底被 GPT-4 击败！

失言

失言测试提供了这样一个情境：一个角色无意中说了一句冒犯听者的话，因为说话者不知道或不记得某些关键信息。

在此测试中，GPT-4 的得分似乎明显低于人类水平。

经过深入调查后，研究者发现了可怕的真相 ——

GPT 模型既能够计算有关人物心理状态的推论，又知道最有可能的解释是什么，但它不会承诺单一的解释，这也就是超保守主义假设。

暗示

暗示任务通过依次呈现 10 个描述日常社交互动的小故事来评估对间接言语请求的理解。每个小故事都以一句可被解释为暗示的话语结束。

一个正确的回答既能指出这句话的本意，也能指出这句话试图引起的行动。

在这项测试中，GPT-4 的表现明显优于人类。

奇怪故事

奇怪故事提供了一种测试更高级心智能力的方法，如推理误导、操纵、撒谎和误解，以及二阶或高阶心理状态（例如，甲知道乙相信丙......）。

在这个测验中，受测者会看到一个简短的小故事，并被要求解释为什么故事中的人物会说或做一些字面上不真实的事情。

同样，GPT-4 的表现明显优于人类。

作者介绍

论文一作 Winnie Street，目前是 Google AI 的高级研究员。

在此之前，她在牛津大学获得了考古学与人类学的学士学位。

参考资料：

https://arxiv.org/abs/2405.18870

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。