科技公司GPT-3在自然环境下的类比思维测试表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。

这种让神经网络执行一些原本计划外任务的做法,不仅是一种有趣的娱乐活动,而且可能有着科学上的重要意义。科学家们正在探索人工智能能力极限,并寻找理解人类思维模式的一些线索。

GPT-3系列算法最引人注目的特点之一是在零样本情况下解决新问题的能力。这主要是通过文字描述问题来实现的。

这种推理机制——研究少数几个示例,与一种全新的、完全未知但相似的场景进行类比,并找到解决方案——被称为类比推理。这不仅涉及到“推理”,而且是指思维过程本身,而非语言表达形式。人们认为这也是某些高度智慧动物物种所独有的特征。

加州大学洛杉矶分校(UCLA)的研究人员想知道GPT-3是否真的能够进行基于文本的人工智能与类比推理。此举,他们选择了一组在模型训练期间绝对不会遇到的任务。

为了评估这一点,科学家们将经过时间考验的Raven标准渐进矩阵测试卡进行了改编,以适用于基于文本的人工智能。在这个实验中,参与者必须从一系列图像中选择一个正确答案,这些图像由九个元素组成,但其中第九个单元缺失。要求受试者查看前两行确定规则,并应用该规则到第三行上。这在视觉上容易感知,但在语言上并不简单(见图)。随着每项任务难度逐渐增加。

由于GPT-3不是多模态模型,只能处理文本,因此这些矩阵已被调整以符合原则保持不变。与之比较的是来自加州大学洛杉矶分校大学生的对照组,他们输给了人工智能。

学生提供正确答案比例略低于60%(正常水平),而GPT-3提供80%(高于平均水平但仍处于正常范围内)。正如该研究作者所指出的那样,该算法犯了与人类相同错误,即决策过程可能非常相似。

除了Raven矩阵之外,研究人员还向算法提出了一些来自美国标准化入学考试(SAT)的更复杂的问题,其中包括一些几乎未曾公开发布过,因此GPT-3很可能也不熟悉它们。

例如,“仇恨”和“爱”的关系是什么?它与“财富”和“贫穷”的关系相同吗?因此,该模型必须明白需要找到反义词,而无需直接指示。

正如预期那样,GPT-3很好地解决了更困难的问题,其中需要跨越整个句子或段落进行类比。但当涉及空间思维任务时,尽管详细描述问题,比如如何用管子、剪刀或胶带将软糖从一个碗转移到另一个碗,最终得到的是无意义的文本作为回应。

使用此次实验测试样品。一边展示的是标准Raven渐进矩阵的一个变体,一边展示的是其同构版本,其格式采用同样的规则构建,如右侧(b)所示,是其文字表示形式的一致性物象 (a) 。

美国心理学家的这项工作提出了关于大型语言模型是否模仿许多人类思考方面,以及我们面临一种全新的思考方式的问题。在第二种情况下,与著名哲学概念"车里的幽灵"作出直接比较,对此有一种解释说:一个相当复杂的人造系统可以获得不可预见、新奇的心智特质,使得从外部看,它们似乎无法区分于人类意识。

这项科研工作存在两个重大局限性,其作者也正直地承认这一点。一方面,由使尽量努力确保虽然不能保证GPT-3训练过程中遇到了与这些类型的问题,但并没有针对这些类型数据进行训练;另一方面,由于不能进入内部了解它如何做出决定,这就造成了解这个黑箱子的障碍,那就是神经科学发展的一个挑战

一篇详细介绍该研究结果的大文章发表在《自然行为》杂志上,其预印版可免费获取,从arXiv门户网站访问公众领域获取