GPT-4 不知道自己错了! LLM 新缺陷曝光,自我纠正成功率仅 1%

【新智元导读】GPT-4 根本不知道自己犯错?最新研究发现,LLM 在推理任务中,自我纠正后根本无法挽救性能变差,引 AI 大佬 LeCun 马库斯围观。

大模型又被爆出重大缺陷,引得 LeCun 和马库斯两位大佬同时转发关注!

在推理实验中,声称可以提高准确性的模型自我纠正,把正确率从 16%「提高」到了 1%!

简单来说,就是 LLM 在推理任务中,无法通过自我纠正的形式来改进输出,除非 LLM 在自我纠正的过程中已经知道了正确答案。

由 ASU 研究人员发表的两篇论文,驳斥了之前很多研究提出的方法「自我纠正」—— 让大模型对自己的输出的结果进行自我纠正,就能提高模型的输出质量。

论文地址:https://arxiv.org/ abs / 2310.12397

论文地址:https://arxiv.org/ abs / 2310.08118

论文的共同作者 Subbarao Kambhampati 教授,一直致力于 AI 推理能力的相关研究,9 月份就发表过一篇论文,甚至全盘否定了 GPT-4 的推理和规划能力。

论文地址:https://arxiv.org/ pdf / 2206.10498.pdf

而除了这位教授之外,最近 DeepMind 和 UIUC 大学的研究者,也针对 LLM 在推理任务中的「自我纠正」的能力提出了质疑。

这篇论文甚至呼吁,所有做相关研究的学者,请严肃对待你们的研究,不要把正确答案告诉大模型之后再让它进行所谓的「自我纠正」。

因为如果模型不知道正确答案的话,模型「自我纠正」之后输出质量反而会下降。

https://arxiv.org/abs/2310.01798

接下来,就具体来看看这两篇最新论文。

GPT-4「自我纠正」,输出结果反而更差

第一篇论文针对 GPT-4 进行研究,让 GPT-4 对图形着色问题提供解决方案,然后让 GPT-4 对于自己提出方案进行「自我纠正」。

同时,作者再引入一个外部的评估系统对 GPT-4 的直接输出,和经过了「自我纠正」循环之后的输出进行评价。

实验结果显示,GPT-4 在猜测颜色方面的准确率还不到 20%,这个数值似乎并不让人意外。

但令人惊讶的是,「自我纠正」模式下的准确性却大幅下降(下图第二根柱状条 )—— 与所有自我纠正本意完全背道而驰!

作者认为,这种看似反直觉的情况可以这么解释:GPT-4 在验证正确答案的表现也很糟糕!

因为即使当 GPT-4 偶然猜到正确颜色时,它的「自我纠正」会使它觉得正确答案是有问题的,然后就把正确答案给替换掉了。

通过进一步研究后还发现:如果外部验证器给 GPT-4 猜测出的颜色提供了可以被证实的正确答案,GPT-4 确实会改进它的解决方案。

在这种情况下,经过「自我纠正」产生的提示词,确实可以提高输出结果的质量(上图的第 3-5 根柱状图 )

总结来看,就是对于「着色问题」任务,GPT-4 独立的「自我纠正」反而会损害输出的性能,因为 GPT-4 没法验证答案是否正确。

但是如果能提供外部的正确验证过程,GPT-4 生成的「自我纠正」确实能提升性能。

而另一篇论文,从规划任务的角度来研究了大语言模型「自我纠正」的能力,研究结果也和上一篇论文类似。

而且,研究人员发现,真正能提高输出准确性的不是 LLM 的「自我纠正」,而是外部独立验证器的反馈。

归根结底,还是在于 LLM 没有办法进行独立的验证,必须依赖外部的验证器给出的「正确答案」,才能有效地进行「自我纠正」。

「着色问题」表现不佳,LLM 无法独立验证正确答案

研究设计框架

「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。

多样性的结果使得 LLM 的训练数据很难覆盖全,尽量避免了 LLM 的训练数据被污染的可能。

这些原因使得「着色问题」很适合用来研究 LLM 的推理能力,也很方便用来研究 LLM 在推理中「自我纠正」的能力。

研究人员构建了自己的数据集,使用 GrinPy2 来处理常见的图操作。每个图都是使用 Erdos-Rényi 方法( ˝p = 0.4)构造的。

一旦找到正确的答案,它就会被编译成标准的 DIMACS 格式,并附加上一个包含其预计算的色数(chromatic number)的注释。

对于接下来的实验,研究人员生成了 100 个实例,每个实例平均有 24 条边,分布在从 10 到 17 的节点数范围内 —— 这一分布是因为经验显示,它是一个表现足够多变的范围。

研究人员使用的图例如下图 1 所示,这个流程包括 LLM 的第一次回复、该回复的返回提示(backprompt)以及最终正确的图色方案。

迭代返回提示(Iterative Backprompting)的架构

提示生成器(Prompt Generator):

这个提示词生成器会选取一个 DIMACS 实例,并将每条边翻译成一个句子,然后将整体包裹在一组通用指令中,从而构造出一个自然语言提示词。

研究人员有意缩小不同实例提示之间的差异,以减少研究人员向 LLM 泄露的问题特定信息。各种类型提示的示例可以在附录中找到。

大型语言模型:

通过 OpenAI API 来调用 GPT-4,这是当前最先进的模型。

研究人员提供一个系统角色:「你是一个解决各种 CSP(约束满足问题)的约束满足求解器」。

返回提示词生成(Backprompt Generation)

在验证模式下,LLM 收到一种不同类型的提示。

除了标准指令外,它只包含图的描述和建议的着色方案。它的任务是验证正确性、最优性以及每个顶点是否都已经被涂上了一个颜色。

如果生成的回复中有一组边是矛盾的,那着色方案就是错误的。

为了比较每个点,研究人员还构建了一个能够列出每一条矛盾边的验证器。

由于 LLM 的响应也是自然语言形式的,研究人员首先将它们翻译成便于分析的格式。为了使这个过程更加一致,研究人员设计了最初的提示,以描述一个模型需要遵循的精确输出格式。然后,该响应会被评估其正确性。

为了判断 LLM 验证结果,研究人员会检查它们在找出建议的着色方案中的错误方面表现如何。

直观地说,这些应该很容易识别:如果组成一个边的两个顶点共享一个颜色,立即返回该边。从算法角度看,只需要检测所有的边并比较每个顶点的颜色与其连接点的颜色即可。

验证

为了更深入了解 LLM 的验证能力,研究人员研究了它们在找出提出的着色方案中的错误方面的表现。

直观来说,这些错误应该很容易识别:如果组成一个边的两个顶点共享一个颜色,则立即返回该边。从算法角度来看,所有需要做的就是遍历所有边,并将每个顶点的颜色与其对应顶点的颜色进行比较。

研究人员使用相同的分析流程,但构建了一个研究人员称为 color_verification 的新域。LLM 被引导去检查着色的正确性、最优性以及是否每个顶点都已经被赋予了一个颜色。

如果着色是不正确的,它被指示列出着色中的错误,即如果两个连接的节点共享一种颜色,就返回该边以表示该错误。没有给出返回提示(backprompts)。

研究人员使用之前相同的图实例,但生成了四种用于测试模型的着色方案:

正确(Correct):通过迭代的、随机的贪婪算法生成的没有错误的最优着色方案(使用预先计算的色数以确保最优性)。

缺失(Ablated):将先前一组着色方案中的一个随机节点改变为其邻居的颜色。

非最优(Non-optimal):在正确的集合中,随机选择一个颜色部分重新着色为一个新的色调。

随机(Random):完全随机分配的颜色,不同颜色的数量等于图的色数。

LLM:从先前实验中 LLM 生成的输出中随机选取的着色方案。

结论

对 LLM 进行提示、评估答案,并在没有任何返回提示(backprompts)的情况下就会进入下一个实例,得到的基线分数为 16%。

当研究人员运行相同的实例,但这次使用由相同的语言模型充当验证者生成的反馈进行返回提示时,性能急剧下降 ——100 个实例中只有一个得到了正确的回答。

与外部合格的验证器进行返回提示的结果起初看似更有效果。

正确回答的实例数量接近 40%,但如果这意味着 GPT-4 在听取、改进,并根据反馈进行推理,那么研究人员期望更准确的返回提示会带来更好的结果。

然而,在这个域中,原始分数(见上图 2)并没有证明这一点。

LLM 的验证能力

研究人员测试了 GPT-4 在相同实例上验证图着色方案的能力,为每种实例生成了五种不同类型的着色方案。

明显的结果是,与上面的 LLM 自我纠正结果完全一致:模型几乎不愿将任何答案标记为正确。在 100 个最优着色方案中,它只同意其中 2 个是正确的。

整个 500 个着色方案的集合,其中 118 个是正确的,它只声称其中 30 个是正确的。在这 30 个中,其实只有 5 次是正确的。

总体而言,这一模式保持不变。在不到 10% 的案例中,LLM 给出了「正确」、「非最优」或「缺少赋值」的反应。在这些情况中,行为看似有些随机。

在大约四分之一的实例中,它用「这是不正确的」验证作出回应,而解释与现实相符,而且它只通过指明不超过一个边来实现这一点,从而最小化了错误陈述某事的机会。

结果如上表 2 所示。请注意,当域的错误率增加时,幻觉比例下降。也就是说,当有更多的不正确的边时,模型更有可能指出其中出错的情况。

LLM 自我批评,性能不增反减

在 12 日提交的论文中,作者同样得出了与上面一致的结论。

无论是规划,还是简单的算术或逻辑,当前最先进的大模型 GPT-4 也无法完全胜任。

许多研究人员对其进行了许多的探索和改进,其中就包括让 LLM 学会自我迭代、自我验证等策略来提升性能。

由此,业界人们乐观地认为,大模型还有救!

然而,经典意义上的推理任务复杂性与大模型无关,因为 LLM 是采用近似检索而非精确推理的模型。

在 12 日提交 arXiv 的论文中,ASU 研者系统地评估和分析 LLM 在规划任务中的自我批评,以及迭代优化的能力。

研究中,作者提出了一个包含生成器 LLM 和验证器 LLM 的规划系统。

其中,GPT-4 生成器负责生成候选计划,GPT-4 验证器负责验证计划的正确性并提供反馈。

然后,研究人员在 Blocksworld 规划领域上进行了实验,并对以下方面进行了实证评估:

- 自我批评对整个 LLM+LLM 系统的计划生成性能的影响

- 验证器 LLM 相对于地面真值验证的性能;

- 在批评 LLM 生成时,同反馈级别对整体系统性能的影响。

结果表明,与使用外部可靠的验证器相比,自我批评会降低 LLM 规划生成性能。

性能下降可以直接归因于验证器 LLM 的糟糕结果,验证器 LLM 产生了大量的假阳性,这可能严重损害系统的可靠性。

验证器 LLM 的二元分类准确率仅为 61%,存在大量的假阳性(将错误规划判断为正确)。

另外,根据反馈的详细程度对比,发现其对规划生成性能影响不大。

总的来说,这项研究的系统调查提供了初步证据,对于 LLM 作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

作者介绍

Subbarao Kambhampati

Subbarao Kambhampati 是亚利桑那州立大学计算机科学教授。Kambhampati 研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。

参考资料:

  • https://twitter.com/rao2z/status/1715800819239678013

  • https://twitter.com/GaryMarcus/status/1715804178470387736

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享