中国科技馆官网GPT-3类比思维在自然场景中表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。
这种让神经网络执行未曾计划做的事情是一种有趣的娱乐,但它也有科学依据。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的方法。
GPT-3系列算法最引人注目的特点之一是在零样本情况下解决新问题。这主要通过文字描述问题来实现。
这种基于少数示例进行推理和解决新情况的问题被称为类比推理,这是指“推理”作为思维的一部分,而不是仅仅是语言表达。人们认为这是人类独有的特征,也可能存在于一些智力高度发达的动物身上。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能通过类比进行推理。他们选择了一些模型在训练期间绝对不会遇到的任务。
为了测试这一点,科学家们使用了经过时间考验的Raven标准渐进矩阵卡片,并将其调整为文本形式,对AI进行了修改。这一系列由九个元素组成,每组都缺少一个单元,要求选取者从多个选项中选择正确答案。这需要查看前两行确定规则,然后应用到第三行并进行类比判断。在每一次任务中,难度都会增加。
由于GPT-3不是多模态模型,只能处理文本,因此这些图形已经被转换成文本格式,但原理保持不变。在对照组里的是加州大学洛杉矶分校的大三学生,他们输给了人工智能。学生提供的正确答案略低于60%(正常水平),而GPT-3提供了80%(高于平均水平但仍然处于正常范围内)。正如该研究作者所指出的那样,该算法犯与人类相同错误,这意味着决策过程可能非常相似。
除了Raven矩阵外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。大多数变体从未公开过,因此 GPT-3很可能也不熟悉它们。
该模型在“仇恨”的“爱”与这个词同义词“财富”相同,那么是什么?(正确答案是“贫穷”。)因此,该算法必须明白在这种情况下需要找到反义词,而无需直接指示。
正如预期,一旦涉及更困难的问题,比如句子或段落之间需要进行类比时,GPT-3就表现得很好。但当涉及空间思维任务时,即使你详细地描述这个问题,比如“将软糖从一个碗转移到另一个碗最好的方法是什么——用管子、剪刀或胶带”,该算法也会提供无意义的文本作为回应。
这项研究提出了一个新的层面上的问题:大型语言模型是否模仿了许多方面的人类思考,或我们面临一种全新的思想方式?如果后一种情况发生,我们可以将之与著名哲学概念"车里的幽灵"做出比较。在此解释中,有一种复杂的人工系统(机器)可以获得不可预见且复杂的人性特征,从外部看起来几乎无法区分与人类意识一样复杂的情况出现的情况。
这项工作有两个重大局限性,其作者提到了这一点。一方面,由于试图确保该模型没有接触过任何类型的心境Raven 矩阵,还有一些可能性是不太可靠,因为没有保证训练数据集包括任何相关内容。此外,由于不能访问内部操作程序,以便观察它如何处理信息流程和决策过程,使得整个讨论变得更加抽象。
关于这项研究的一个简短介绍已发表在《自然行为》上,其预印版可供公众免费下载至arXiv门户网站上以获取更多信息。