我能点亮科技树GPT-3 类比思维在自然场景中表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它甚至超过了大学高年级学生的表现。
这种让神经网络尝试一些原本计划外的事情是一种娱乐形式,但科学家们正在利用这种行为来探索人工智能的极限,并寻找理解人类思维方式的途径。GPT-3系列算法最引人注目的特点之一是它们能够用零样本解决某些新问题,只需通过文字描述问题。
这个机制,被称为类比推理,是一种“推理”过程的一部分,而不是语言表达。人们认为这也是人类独有的特征,也可能存在于一些智力非常发达的动物物种中。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能够进行类比推理,他们选择了一个模型在训练期间绝对不会遇到的任务。
为了测试这一点,科学家们使用Raven标准渐进矩阵对经过时间考验的测试卡进行了改编,以适用于基于文本的人工智能。在这些图像系列中,每个元素都有九个属性,但第九个单元缺失,要求受试者从多个选项中选择正确答案。这需要他们查看前两行,确定规则,并将其应用到第三行上,这在视觉上很容易但在语言上却难以处理。
由于GPT-3不是多模态模型,所以调整了矩阵,但原理保持不变。一组来自加州大学洛杉矶分校的大学生作为对照组,他们给出的正确答案低于60%(正常水平),而GPT-3得到了80%(高于平均水平但仍然处于正常范围内)。该算法犯下的错误与人类相同,这表明决策过程可能非常相似。
除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中包括“仇恨”与“爱”的关系,以及这个词与“财富”的相同之处等问题。这些变体从未在公共领域发布过,因此GPT-3也许并不熟悉它们。但即使如此,该模型还是很好地解决了更复杂的问题,即需要跨越整个句子或段落来进行类比。不过,它也显示出困境,比如空间思维任务,即使详细描述问题,如如何将软糖从一个碗转移到另一个碗时,最好的方法是什么——用管子、剪刀或胶带——它仍然提供了一些无意义的文本作为回应。
这项研究提出了一个新的层次上的问题:大型语言模型是否模仿了许多方面的人类思维,或我们面临的是一种全新的思维方式?如果后者成立,那么与著名哲学概念“车里的幽灵”的比较就不言而喻。此解释指出,一种复杂的人工系统可以获得不可预见且具有新特性的属性,使其看起来与人类意识无法区分开来。这项工作也有两个主要局限性,其作者已经指出了这一点:首先,没有保证训练数据中的任务会包含任何类型的心理测验;其次,由于不能进入模型内部,我们无法了解它如何“思考”。