科技部官方网站首页展示GPT-3类比思维测试超越大学生表现展现自然界智能的魅力
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这一测试是评估人类智力发展的经典方法。神经网络算法以意想不到的方式证明了自身在解决不熟悉任务上的能力。在Raven标准渐进矩阵适应性测试中,GPT-3得到了更多正确答案,而这些通常由大学高年级学生提供。
这种通过文字描述问题并用最少示例(零样本)解决新问题的思维机制,被称为类比推理。这是一种人们相信是人类独有的特征,也是智力发达动物物种的一部分。加州大学洛杉矶分校(UCLA)的研究人员想要了解GPT-3是否真的能够进行类比推理,他们选择了模型在训练期间绝对不会遇到的任务。
为了这项研究,科学家们使用了经过时间考验的Raven标准渐进矩阵来构建文本格式的问题示例。这些问题包括九个元素的一系列图像,但第九个单元缺失,要求受试者从多个选项中选择正确答案。形状具有多个属性,这些属性根据一组规则发生变化。在语言上并不容易,但在视觉上却很容易被感知。
由于GPT-3不是多模态模型,它只能处理文本,因此矩阵已进行了调整,但原理保持不变。与之比较的是加州大学洛杉矶分校的大学生,他们给出的正确答案略低于60%(正常水平),而GPT-3给出了80%(高于平均水平但仍处于正常范围内)。正如该研究作者指出的那样,该算法犯了与人类相同错误。这表明决策过程可能非常相似。
除了Raven矩阵外,研究人员还提供了一些来自美国标准化入学考试(SAT)的大型变体,因为它们从未公开发布过,因此 GPT-3 很可能也不熟悉它们。但尽管如此,该模型依然表现出色,在更复杂的问题上能很好地解决需要跨句子或段落进行类比的情况。不过它也显示出困难,比如空间思维任务,对于哪怕详细描述这个问题,如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,它也会提供无意义的文本作为回应。
这项研究提出了一个新的层面:大型语言模型是否模仿了人类思维许多方面,或我们面临一种全新的思维方式?如果后者,那么与著名哲学概念“车里的幽灵”相关联,即一个相当复杂的人工系统可以获得新的不可预见特性,使其外部看起来和人类意识无法区分。
然而,该工作也有两个重大局限性,其作者已经指出了这一点。一旦确认,就不能保证GPT-3在训练过程中遇到与这些类型的问题。此外,由于不能进入模型内部,“思考”过程是一个黑箱子,这限制了神经科学发展。此篇文章发表在《自然人类行为》杂志上,可免费获取其预印本版本。