中国科技最新消息GPT-3类比思维在自然场景中表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生得到了更多正确答案。
这种测试不仅仅是一种娱乐,而可能有着科学的目的。科学家们正在探索人工智能的极限,并寻找理解人类思维方式的方法。GPT-3系列算法最令人印象深刻的是它们能够用最少数量的示例(零样本)解决一些新问题,主要通过文字描述问题。
这种机制,被称为类比推理,是一种“推理”形式,是思维的一部分,而不是语言表达。这被认为是人类独有的特征,也是智力发达动物物种共有的特征。
加州大学洛杉矶分校(UCLA)的研究人员想知道GPT-3是否真的可以通过类比进行推理,因此他们选择了一个模型在训练期间绝对不会遇到的任务。他们使用Raven标准渐进矩阵来改编经过时间考验的测试卡,以用于基于文本的人工智能。
这些图形由九个元素组成,每组三行,但第九个单元缺失。受试者需要从多个选项中选择正确答案,形状具有多个属性,这些属性根据一组规则发生变化。在视觉上很容易感知,但在语言上并不容易(见图)。接下来的每一项任务难度都会增加。
由于GPT-3不是多模态模型,所以矩阵已经进行了调整,但原理保持不变。在对照组中的加州大学洛杉矶分校大学生与之相比,他们给出的正确答案略低于60%(正常水平),而GPT-3提供了80%(高于平均水平但在正常范围内)。
除了Raven矩阵外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。
该模型能否理解句子之间进行类比的问题,比如“仇恨”的“爱”与这个词相同,什么?(正确答案是“贫穷”)。因此,该算法必须明白在这种情况下需要找到反义词,而无需直接指示。
正如预期的那样,GPT-3很好地解决了更困难的问题,其中必须在整个句子或段落之间进行类比。但该模型也会陷入困境,那就是空间思维任务,即使你详细描述这个问题,比如将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带,该算法仍然会提供无意义文本作为回应。
研究使用了以下测试样本:左边的是标准Raven渐进矩阵的一个变体,而右边的是其同构版本,以文本格式表示相同规则下的图像材料。
这项科学工作有两个重大局限性,其作者正确地指出了这一点。一方面尽管努力保证GPT-3训练过程中遇到与上述类似的任务,但实际上它不太可能针对渐进Raven 矩阵所用的文本表示进行训练,最重要的是,可以在训练数据集中找到SAT 的一些变体。
另一方面,由于无法进入模型内部,“思考”过程成为黑箱,使得神经科学发展受到限制。
一篇介绍该研究详情文章发表于《自然人类行为》杂志,并可免费获得arXiv门户网站上的预印版公开发表文章版本。