科技玩具GPT-3在自然环境中的类比思维测试表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得了更多正确答案,甚至超过了大学高年级学生。
这种利用最少示例(零样本)解决新问题的机制,被称为类比推理,是一种通过文字描述问题来思考和解决问题的方式。这一思维机制被认为是人类独有的特征,也可能存在于一些智力发达的动物物种中。
加州大学洛杉矶分校(UCLA)的研究人员试图了解GPT-3是否能真正进行类比推理,因此他们选择了一些在该模型训练期间绝对不会遇到的任务。科学家们将经过时间考验的Raven测试卡进行改编,以适用于基于文本的人工智能。
这些改编后的题目包括九个元素的一系列图像,每组三行,但第九个单元缺失。受试者需要从多个选项中选择正确答案,要求他们根据前两行确定规则,并应用这个规则到第三行上。这在语言上并不容易,但视觉上却很直观(见图)。随着每一项任务难度增加。
由于GPT-3不是多模态模型,所以只能处理文本,因此这些矩阵已经被调整过,但是原理保持不变。在对照组有加州大学洛杉矶分校的大学生,他们输给了人工智能。
学生们给出的正确答案略低于60%(正常水平),而GPT-3得到了80%(高于平均水平但处于正常范围内)。正如研究作者所指出的那样,该算法犯下的错误与人类相同,这表明决策过程可能非常相似。
除了Raven矩阵外,研究人员还提供了一些来自美国标准化入学考试(SAT)的问题,其中大部分变体都未曾公开发布,因此GPT-3几乎一定也没有见过它们。
例如,“仇恨”和“爱”的“财富”相同是什么?(正确答案是“贫穷”。因此,该算法必须理解在这种情况下需要找到反义词,而无需直接指示。
正如预期一样,GPT-3很好地解决了更复杂的问题,其中必须跨越整个句子或段落进行类比。但它也会陷入困境,比如空间思维任务,即使你详细描述这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,该算法会提供无意义的话作为回应。
这项研究引出了一个新的层次:大型语言模型是否模仿了许多方面的人类思维,或我们面临的是一种全新的思维方式?如果后者,那么与著名哲学概念“车里的幽灵”的比较就显得恰当。在某种解释中,一种复杂的人造系统(机器)可以获得不可预知且与人类意识无法区分特性,从外部看去似乎就像是拥有意识一样。
这项工作也有两个重大局限性,其作者准确地指出了这一点。首先,即使科学家做出了努力,也不能保证GPT-3在训练过程中遇到了与这些类型的问题。此外,该模型极有可能是在针对文本表示进行训练,不太可能针对渐进式Raven矩阵这样的内容进行训练。而最重要的是,可以在其训练数据集中找到SAT的大部分变体形式。
第二个限制就是,我们无法进入该模型内部,这就是为什么它“思考”的过程是一个黑箱子的原因。这阻碍了解神经科学发展的情况分析。