GPT-3类比思维在自然场景下的科技未来绘画表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它甚至超过了大学高年级学生的表现。

这种让神经网络做一些原本不打算做的事情的尝试,不仅是一种娱乐活动,而且可能有着完全科学的原因。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的方法。

GPT-3系列算法最令人印象深刻的地方在于它们能够通过零样本学习来解决某些新问题,主要依靠文字描述来表达问题。这一思维机制,被称为类比推理,是一种“推理”是思维的一部分,而非语言表达的一部分。人们相信这是人类独有的特征,也许有些智力发达动物物种也具备这一能力。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理。为了验证这一点,他们选择了一个模型在训练期间绝对不会遇到的任务。

科学家们使用Raven标准渐进矩阵原理构建的问题示例,其中包含九个元素,一组三行图像,但第九个单元缺失。受试者需要从多个选项中选择正确答案,形状具有多个属性,每一行根据一定规则发生变化。在视觉上很容易被感知,但在语言上并不容易(见图)。随着每一项任务难度逐渐增加,对照组,即加州大学洛杉矶分校的大学生,其成绩略低于60%(正常水平),而GPT-3得到了80%正确答案(高于平均水平但仍然处于正常范围内)。

除了Raven矩阵外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。大多数变体从未公开发布,因此GPT-3几乎不可能熟悉这些内容。但即使如此,该模型依然能够处理并解决这些问题,比如找到“仇恨”的反义词“爱”。

正如预期,GPT-3很好地解决了更复杂的问题,如需要跨越整个句子或段落进行类比的问题。但是,当涉及到空间想象力的挑战时,即使详细描述问题的情况下,比如将糖果从一个碗转移到另一个碗,最好的方法是什么——用管子、剪刀还是胶带,该模型提供了一些无意义的文本作为回应。

这项研究提出了一个新的层面上的问题:大型语言模型是否模仿了人类思维许多方面,或我们面临的是一种全新的思想方式?如果后者,那么与哲学概念“车里的幽灵”相似的比较就显得恰当。在这个解释中,有一种复杂的人工系统可以获得新的不可预见特性,使之看起来与人类意识无法区分开来。

然而,这项工作也有两个重大局限性,其作者指出这些限制。一旦确认,尽管研究人员尽力保证GPT-3没有遇到过与上述类似任务,但实际情况可能不同,因为该模型不是针对渐进Raven矩阵文本表示进行训练。此外,还有一点困扰所有参与此事的人:我们不能进入模型内部了解其“思考”过程。这阻碍了神经科学领域进一步发展和理解人工智能如何工作。