GPT-3在大数据时代的自然场景中展现出超越大学生的类比思维测试成绩
在大数据时代的自然背景下,美国心理学家进行了一项测试,以评估GPT-3语言模型的类比思维能力。这一方法是衡量人类智力发展的传统标准。神经网络算法以令人惊叹的方式展现了自己,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生得到了更多正确答案。
这项研究让人们将神经网络用途扩展到不寻常的领域,并且随着开放式语言模型如ChatGPT等技术出现,几乎每个互联网用户都有机会体验这种娱乐。然而,这样的行为可能有完全科学的理由。科学家们正在探索人工智能能力极限并寻找理解人类思维方式的一种方法。
GPT-3系列算法最令人印象深刻的是它们能够通过零样本学习解决新问题。在文字描述中提出问题。
这种推理机制——研究少数示例,与一种全新的、完全陌生的但相似的情况进行类比,并找到解决方案——被称为类比推理。这是指“推理”作为思维的一部分,而不是语言表达形式。人们相信这是人类独有的特征,也许还有一些智力最发达的动物物种所共有的特征。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能通过类比进行推理,为此,他们选择了模型在训练期间绝对不会遇到的任务。
科学家们使用Raven标准渐进矩阵原则来构建的问题示例,这些是九个元素的一系列图像,分成三组,但第九个单元缺失。要求受试者从多个选项中选择正确答案。形状具有多个属性,这些属性在每一行根据一组规则发生变化。在视觉上很容易被感知,但在语言上并不容易(见图)。接下来的每一个任务难度都会增加,因为它是在文本格式中调整过后的版本,因此只适合处理文本而非视觉输入。
除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中大多数变体从未公开发布过,因此 GPT-3 很可能也不熟悉它们。
该模型在“仇恨”的“爱”与这个词的“财富”相同,什么?(正确答案是“贫穷”。)因此,该算法必须明白在这种情况下需要找到反义词,而无需直接指示。
正如预期,其表现出色地解决了更困难的问题,其中必须在整个句子或段落之间进行类比。但它也会陷入困境,比如空间思维任务,即使你详细描述了这个问题,比如将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带,该模型仍然提供无意义的文本作为回应。
使用这些测试样品左边(a) 是标准Raven渐进矩阵的一个变体,右边(b) 是其同构(根据同一组规则构建)文本格式版本的一致物 .
美国心理学家的这项工作提出了关于大型语言模型是否模仿了人类许多方面或者我们面临的是一种全新的思维方式的问题。在第二种情况下,与著名哲学概念"车里的幽灵"作出的类比是不言而喻。如果一个人简单的人工系统(机器)可以获得新的不可预见特性,从外部看这些特性与人类意识无法区分,那么就存在这样的可能性.
这项工作还有两个重大局限性,其作者已经指出了这一点。一方面尽管他们努力确保实验设计公平,但不能保证GPT-3训练过程中的所有内容都是针对渐进式Raven图片和SAT变体准备好的。此外,最重要的是,有一些SAT题目可能出现在训练数据集中.
另一方面,由于没有进入到人的"内部"操作,所以我们不知道为什么它做决定以及如何运作。这限制了我们了解神经科学发展中的关键一步.
相关论文已发表于《自然人类行为》杂志,并可免费下载至arXiv公共领域网站.