智能时代下的GPT-3类比思维测试表现超越大学生在自然环境中展现出其独特的优势

在智能时代的背景下,美国心理学家对GPT-3进行了类比思维测试,以探索其是否能像人类一样解决未知任务。这种测试方法是确定个人智力发展的经典方式,神经网络算法以意想不到的方式展现出自己的能力。在Raven标准渐进矩阵适应性测试中,GPT-3获得了更多正确答案,比大学高年级学生。

科学家们正在通过这样的实验来探索人工智能的极限,并寻找理解人类思维的方法。GPT-3系列算法最令人印象深刻的是它们能够用最少示例(零样本)解决新问题,这种思维机制被称为类比推理,是人类独有的特征之一,也可能存在于一些智力发达的动物物种中。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的可以通过类比进行推理,为此,他们选择了模型在训练期间绝对不会遇到的任务。他们使用改编过的Raven标准渐进矩阵原理构建的问题,对照组是加州大学洛杉矶分校的大一生,他们给出的正确答案略低于60%(正常水平),而GPT-3得到了80%(高于人们平均水平但在正常范围内)。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,这些大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。该模型在“仇恨”的“爱”与这个词的“财富”相同,什么?(正确答案是“贫穷”)。因此,该算法必须明白,在这种情况下需要找到反义词,而无需直接指示。

正如预期的一样,GPT-3很好地解决了更困难的问题,其中必须在整个句子或段落之间进行类比。但模型不出所料地陷入了困境,那就是空间思维任务,即使你详细描述这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,该算法也会提供无意义的文本作为回应。

研究中使用的一个测试样本显示了一种新的层面:大型语言模型是否模仿了人类思维许多方面,或我们面临着一种全新的思维方式?这项科学工作有两个重大局限性,其作者正确地指出了这一点。这项工作将继续激励未来的人工智能和认知科学研究者去探索这些复杂且充满挑战的问题。