UC 伯克利发现 GPT-4 惊人缺陷：儿童从经验中学习因果，LLM 却不行

新智元
2023-12-17 12:52

新智元报道

编辑：拉燕

【新智元导读】最近，UC 伯克利的一项研究揭示了 LLM 和小孩子们在认知上的一项重要差别 —— 创造新的因果结构的能力。

大家有没有想过一个问题，LLM 和小朋友们，有什么差别？

你可能会说，LLM 有那么多训练数据集，经过了那么多次微调，还不全方位秒杀小朋友们？

但是，最近 UC 伯克利的一篇论文却显示，LLM 和孩童相比，欠缺了一项很重要的能力。

那就是 —— 从经验中学习因果结构的能力。

当然了，研究人员们也并不是一点儿招没有，RLHF 在某种程度上可以解决这个问题。但是解决的逻辑，却和孩子们学习完全不同。

LeCun 也是转发了这篇研究，并配文「那些孩子们可以，LLM 却做不到的事。」

LLM 究竟拟人吗

首先，我们知道，关于大型语言模型和语言与视觉模型的讨论，主要集中在这些模型是否是智能体上。

而 UC 伯克利的研究人员则提出了一个不同的观点。

他们认为，这些 AI 模型是高效和强大的模仿引擎。

接着他们通过测试这些 AI 模型是否可以发现新的工具和新颖的因果结构，以及将它们接到指令的反应与人类儿童进行对比，来探讨 AI 模型能在模仿和创新这方面，启发研究人员什么。

不少人表示，这些 LLM 不就是一个又一个智能体嘛。图片、文本，什么都能生成，这多聪明。

甚至，他们还会在口语表达中暗示了这种拟人化的夸赞 —— 一「个」AI，就好像咱们说一个人一样。

UC 伯克利的研究人员则认为，这么想就错了。

LLM 就像历史中我们见过的那些技术，比如书写、印刷、图书馆、互联网，甚至语言本身。

大型语言和视觉模型提供了一种新的方法，让我们能轻松有效地访问其他人编写的大量文本和其他人生成的图像。

换句话说，这些 AI 系统为文化生产和演化提供了一种新的手段，允许信息在不同群体之间高效传递。它们汇总了以前由人类代理生成的大量信息，并从中提取模式。

所以，并不拟人。

这与介入外部世界，并生成关于它的信息的感知和行动系统形成对比。换言之，人类的模式。

这里要注意，这种对比不仅限于感知和行动系统本身，还包括科学或是直观理论中所体现的因果关系。它们与外部世界有关，并对该世界进行预测并影响该世界上的行动。

同时，后期来自该外部世界所获得的新证据可以从根本上修改以往的因果关系。

当然，这些寻求真理的认识过程也是一些 AI 系统的基础。例如，强化学习系统，特别是基于模型的系统，可以被理解为在世界上采取行动以解决类似于逆问题的系统。

它们积累数据来构建世界的模型，从而实现广泛和新颖的泛化。这一点在机器人领域尤其突出，这些系统与外部世界接触，改变自身的模型，允许新的行动和泛化，虽说程度有限。

类似地，一些 AI 方法也已经把因果推断和理论形成整合到了其学习机制中，以设计更像人类的系统。

然而，这些系统与我们往常熟悉的，依赖于大量现有数据的、相对简单的、大型语言和视觉模型有显著不同。

寻求真理的认识过程与能够忠实传递表示（representation）的过程这两件事一直会是相抗的，无论这些表示与外部世界之间的关系如何。这种传递对于语言学习和社会协调等能力至关重要。

目前，研究人员有大量证据表明，这种忠实传递的机制在早期发展中已经存在，并在人类认知和文化中发挥着特别重要的作用。

然而，这些机制也可能与寻求真理的因果推断和理论形成机制产生一些微妙的关系，原因可能有好有坏。

比方说，在「过度模仿」（overimitation）的现象中，人类儿童（和成年人）会在复杂的行动序列中重现出现过的所有细节，即使这些细节对该行动的结果并不具有因果关系。

过度模仿可能会增加复杂行动传递的忠实度和效率。但是，这也意味着该传递并不根植于受环境变化所改变的因果理解。同样也有证据表明，儿童会在未经批判性思考的情况下接受别人对外部世界的看法，当且仅当又遇到另一个人所有的不同看法时，儿童才会改变原有的看法。

这点还是蛮有共鸣的，打个比方就是，孩子们起初是一张白纸，画什么是什么，有新的认知才会覆盖原有的色彩。

研究人员认为，大型语言模型有力的促进了这种类型的传递，方式则是总结，和从现有文本中进行泛化。

然而，它们的训练过程中，或是目标函数中，没有设计任何有关履行感知、因果推断或理论形成等寻求真理的系统的认识功能。

即使是最先进的 LLM，它们的输出预测概率也并不会区分认识不确定性（epistemic uncertainty）（这点实际上与知识的缺乏有关，是可以通过更多的训练数据来解决的），和偶然不确定性（aleatoric uncertainty）。

这就带来了「幻觉」的问题。

这种传达和客观真理的对比，与在人类文化演化中的模仿 / 创新的对比密切相关。文化的演化取决于这两种不同认知机制之间的平衡，而模仿允许知识或技能从一个人传递到另一个人；创新则是通过与不断变化的世界接触产生新的知识或技能。

简而言之，模仿意味着每个个体不必创新 —— 他们可以直接利用其他人的认知。但如果某些个体没有创新的能力，光靠模仿本身将毫无用处。这也就是说，正是创新和模仿的结合才能实现文化和技术的进步。

当然，模仿和传输也可能涉及某些种类的泛化和新颖性。LLM 也会产生类似的泛化，有时会从已知的行动中泛化，来产生某种创新。

然而，想要输出足以应对新问题和新环境的创新，则需要 LLM 超越获取的信息，和从这些给定信息中推理出的东西。这些推理可能从现有的因果模型出发，生成与之前观察到的因果非常不同的新因果，或者可能激发对外部世界的新的探索。

从人工智能的角度来看，模仿涉及一种插值泛化，即在已知的范围内，技能和知识在各种背景下得以利用、模拟和分享。

而另一方面，创新则反映了一种更为外推性的，或超分布（out-of-distribution）的泛化。

不过在任何给定情况下，想要确定哪种认知机制产生了特定类型的表示或行为、知识或技能，这件事其实并不容易。

如果只受到内部语言统计数据培训的 LLM 可以复制特定的能力，例如在回应 prompt 时生成语法正确的文本，这表明这类能力可以通过模仿来发展。但如果不行，那就意味着这些能力可能需要创新，即从外部世界中提取知识。

因此，LLM 和大型的视觉模型为研究人员提供了一个机会，可以发现哪种能力需要模仿，哪种能力又需要创新。这也是认知科学长期以来的一个问题。

LLM V.S 儿童

研究人员将受过大量文本数据或文本和图像数据训练的 LLM 模型的性能与儿童的性能（这么说好奇怪，哈哈）进行了对比。

研究人员发现，LLM 的模仿可能在重要方面与儿童的模仿行为有不同。

对儿童而言，现有的文献中存在很多关于我们童年时期的模仿的争论，究竟有多少是忠实的文化传递（比如：过度模仿）以及有多少是由更广泛的寻求真理的过程所驱使的，比如理解他人的目标和意图。

而 LLM 究竟能否创新，取决于能否创新工具（new tools）。

人可以发现并创造全新的各种工具，因此工具是解决模仿与创新之间的平衡问题的最佳例证之一。而 AI 和机器人领域的技术，如「行为克隆」，使用了类似的方法。

然而，需要再次强调的是，模仿，和以插值方式使用现有工具的能力，取决于以外推方式发现新工具的平行能力。

工具创新是人类生活不可或缺的一部分，并且在各种非人类动物中也观察到，因此工具创新通常被认为是生物系统智力的一个显著标志。

然后，工具使用也是理解 LLM 和儿童的模仿和创新的一个重要比较点。

LLM 和人类都可以对对象的信息进行编码，但它们在工具模仿与工具创新方面的能力可能会有所不同。研究人员的预测这些模型可能很好地捕捉到所熟悉的工具使用方法（比如锤子）。

然而，这些系统在涉及不常见、或是新颖的工具时就会很难产生正确的反馈，原因就在于后者依赖于发现和使用新的因果联系、功能类比和适用性。

然而，儿童是否就能够自行进行这种创新呢？需不需要明确的指导和经验？

事实上是，从零开始构建一个新工具，对于儿童来说也是一项困难的任务。不过儿童可能会更容易地识别日常物品中的新功能，并在没有典型工具的情况下选择适当的替代品来解决各种任务。

在研究中，研究人员研究了人类儿童和成年人是否能够使用熟悉的物品，以新的方式来实现特定的结果，并将结果与大型深度学习模型（例如 GPT-3 和 GPT-4）的输出进行了比较。

该研究由两个组成部分：一个模仿部分（根据已知对象的现有知识进行插值判断）和一个创新部分（关于可以使用对象的新方式的外推性判断）。

在创新部分，研究人员提出了一系列问题，需要在没有典型工具的情况下执行目标（例如，在没有圆规的情况下画一个圆）。

然后，研究人员为参与者提供了替代物品选择：

（a）与典型工具更相似但与上下文无关的物品（比方说一把尺子）。

（b）在表面上看起来不同但具有与典型工具相同的适用性和因果属性的物品（例如，底部是圆形的一个茶壶）。

（c）完全无关的物品。

在研究的模仿部分，研究人员提供了相同的物品集合，但要求参与者选择哪种物品选项与典型工具最匹配。

研究人员发现，3 至 7 岁的儿童和成年人（平均年龄 = 27.80 岁，标准差 = 5.54）在被问到哪些物品应该放在一起时，可以识别对象之间的常见的表面关系。

同时，他们也可以发现日常物品的新功能，以解决新颖的问题，因此也会选择表面上不相关，但功能相关的物品。

接下来，使用与测试中人类参与者的文本输入完全相同的设置，研究人员想看看 OpenAI 的 GPT-4、Gpt-3.5-turbo 和 text-davinci-003 模型，以及 Anthropic 的 Claude，Google 的 FLAN-T5（XXL）表现如何。

由于研究人员注意到，这些模型会根据选项的顺序，改变输出结果，因此他们为每个场景跑了模型六次，全面考虑了由三个选项生成的六种不同顺序。

研究人员将模型输出设置为确定性，温度为 0，保持所有其他参数的默认值。然后，研究人员对六次重复试验的得分（选择相关对象为 1，选择其他响应为 0）进行了平均。

就像预测的那样，研究人员发现这些 LLM 几乎与人类一样能够识别对象之间的表面共性。

他们对物体之间的表面关联呈现出敏感性，并在模仿任务中表现出色（GPT-4 平均 83.3%，gpt-3.5-turbo 平均 73.1%，davinci 平均 59.9%，Claude 平均 69.9%，Flan 平均 74.8%）。

然而，当他们被要求选择一种新功能工具来解决问题时，他们不如人类能力强（GPT-4 平均 75.9%，gpt-3.5-turbo 平均 58.9%，davinci 平均 8.87%，Claude 平均 58.16%，Flan 平均 45.7%）。

这表明，仅仅从大量语言中学习可能不足以实现工具创新。

不过比较可惜的是，有关这项研究的图表并没有公开。

那么，LLM 是否能够发现新的因果关系并利用它们来设计新工具呢？我们已经反复提到，发现新工具的能力取决于是否能够推断出新的因果关系。

大量研究表明，即使是非常年幼的儿童也擅长发现这种关系。

因为关于因果结构的信息可以通过模仿和文化传播传递。因果发现是一个不错的例子，足以说明了一个认知过程是如何解决逆问题并通过感知和行动发现新的真理的。

最新版本的 GPT，GPT-4 和 GPT-3.5，通过从人类反馈中进行强化学习进行了微调。

这同样也有问题。从人类反馈中进行强化学习本身可能被认为是一种启用文化传播的方法，算是半个作弊吧，LoL。

参考资料：

https://twitter.com/ylecun/status/1729265577733275786
https://journals.sagepub.com/doi/full/10.1177/17456916231201401

本文来自微信公众号：新智元（ID：AI_era）

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。