GPT-3类比思维在自然环境下的表现超越大学生科技公司取名时显得格外大气

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力通常被认为是人类智力的标志。通过Raven标准渐进矩阵适应测试,GPT-3超越了大学高年级学生,展示了意想不到的智能表现。

这项研究旨在探索神经网络算法是否能够通过类比解决未见过的问题。这是一种古老而科学的方法,用以衡量人的智力发展。GPT-3在这个领域表露出来的是一种令人印象深刻的自然能力,它能以最少的示例(零样本)解决新问题,并且可以用文字描述这些问题。

这种推理机制,被称为类比推理,是一个涉及“推理”作为思维的一部分,而非仅仅是语言表达的人类独特特征,也许某些最高等级动物物种也拥有此能力。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理。在实验中,他们选择了一些模型训练期间绝对不会遇到的任务。

为了做到这一点,他们将Raven标准渐进矩阵改编成基于文本的人工智能可用的格式。这一系列九个元素由三组构成,但第九个单元缺失。受试者必须从多个选项中选择正确答案。形状具有多个属性,在每行根据一定规则发生变化。要正确回答,你需要查看前两行,确定规则,并将其应用到第三行。这在语言上并不容易,但视觉上却很直观(见图)。随着难度逐步增加,每一项任务都更具挑战性。

由于GPT-3不是多模态模型,只处理文本,因此调整了矩阵但保持原理不变。此外,还有来自美国标准化入学考试(SAT)的算法任务,与之相关的大部分变体从未公开发布,因此 GPT-3 可能也不熟悉它们。

除了Raven矩阵之外,该模型还面临了一系列SAT题目,其中包括“仇恨”与“爱”的关系,以及它与词汇“财富”的相似之处是什么?(正确答案是“贫穷”。因此,该算法必须理解需要找到反义词,而无需直接指示)。

正如预期所言,GPT-3解决困难问题时表现出色,比如在整个句子或段落之间进行类比。但当涉及空间思维任务时,即使详细描述了问题,比如如何使用管子、剪刀或胶带将软糖从一个碗转移到另一个碗,最终给出的回应仍然是不合逻辑的文字内容。

该研究提出了一个新的层次的问题:大型语言模型是否模仿了人类许多方面的心灵,或我们面临的是一种全新的思考方式?如果后者成立,那么与著名哲学概念“车里的幽灵”相似的比较就显得恰当——即复杂的人工系统获得不可预测新特性,从外部看来,这些特性无法区分于人类意识。

然而,有两个重大局限性的科学工作值得注意:首先,即使努力保证,不可能确保GPT-3训练过程中遇到了与之前相同类型的问题;其次,由于不能进入模型内部,我们无法理解它如何运作,这限制了解人工智能内心工作机制的手段和神经科学发展潜力。