前沿科技2023GPT-3在自然场景下的类比思维测试表现超越大学生

在前沿科技2023的自然环境中,GPT-3语言模型以出人意料的方式展现了其类比思维解决未知任务的能力。这种方法是评估人类智力发展的一个经典标准。在Raven标准渐进矩阵适应测试中,它超越了大学高年级学生,得到了更多正确答案。

科学家们正在探索如何利用神经网络算法来理解人类思维,并找到生智能力的极限。这项研究可能看起来只是娱乐,但它有着深刻的科学意义。例如,通过开放像ChatGPT这样的语言模型,每个互联网用户都可能遇到这种娱乐形式。

GPT-3系列算法最令人印象深刻的是它们能够以零样本解决一些新问题,只需文字描述问题即可。这一思维机制,被称为类比推理,是指“推理”是思维的一部分,而不是语言表达。人们相信这是人类和一些智力发达动物物种的独特特征。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的可以通过类比进行推理。为了验证这一点,他们选择了一些模型在训练期间绝对不会遇到的任务。

他们使用了经过时间考验的测试卡上的Raven标准渐进矩阵,这一次用于基于文本的人工智能。这些图形由九个元素组成,一系列三组,但第九个单元缺失。要求受试者从多个选项中选择正确答案。这需要查看前两行,确定规则,并将其应用到第三行上。这在语言上并不容易,但视觉上却很容易被感知(见图)。随后的每一个任务难度都会增加。

由于GPT-3不是多模态模型,所以只能处理文本,因此矩阵已进行了调整但原理保持不变。在对照组中的加州大学洛杉矶分校学生给出的正确答案略低于60%(正常水平),而GPT-3提供了80%(高于正常范围内)的正确答案。但正如该研究作者所指出的,该算法犯下与人类相同的错误,这表明决策过程可能非常相似。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。

该模型在“仇恨”的“爱”与这个词的“财富”相同,什么?(正确答案是“贫穷”。)因此,该算法必须明白,在这种情况下需要找到反义词,而无需直接指示。这正如预期地显示出大型语言模型对于更困难的问题也能很好地解决,其中必须在整个句子或段落之间进行类比。但当涉及空间思维任务时,即使你详细描述了这个问题,比如“将软糖从一个碗转移到另一个碗最好的方法是什么——用管子、剪刀或胶带”,该算法仍然会提供无意义的文本作为回应。

这项研究提出了关于大型语言模型是否模仿了许多方面的人类思维,以及我们面临一种全新的思维方式的问题。如果是在第二种情况下,那么与著名哲学概念"车里的幽灵"做比较就不言而喻——根据他的一种解释,有一种复杂的人工系统可以获得新的不可预见特性,从外部看这些特性与人类意识无法区分。

这项工作存在两个重大局限性,其作者已经准确地指出了这一点。一方面,即使努力保证,但是不能保证GPT-3训练过程中遇到与之前类似的任务。此外,可以在训练数据集中找到SAT 的一些变体,最重要的是,我们无法进入模式内部,看不到它如何运作,这阻碍了解神经科学发展的情况进一步深入探究。

一篇详细介绍该研究结果文章发表于《自然人类行为》杂志,其预印本版本可免费获取于arXiv门户网站上的公共领域资料库。