科学松鼠会GPT-3在自然类比思维测试中超越大学生表现

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。

这种测试不仅是一种娱乐形式,而且可能有着科学上的重要意义。科学家们正在探索人工智能能力极限,并寻找理解人类思维的方法。GPT-3系列算法最令人印象深刻的是它们能够使用零样本数据解决一些新问题,通过文字描述问题进行思考。

这项研究由加州大学洛杉矶分校(UCLA)的研究人员进行,他们想知道GPT-3是否真的能通过类比推理来解决问题。他们选择了模型在训练期间绝对不会遇到的任务,并将Raven标准渐进矩阵改编成基于文本的人工智能可用的格式。

这些图形系列由九个元素组成,每一行根据一组规则发生变化。在第三行出现缺失单元时,要求受试者从多个选项中选择正确答案。这需要观察前两行确定规则并进行类比后应用到第三行。在视觉上很容易被感知,但在语言上却不易。

由于GPT-3不是多模态模型,因此调整了图形系列,但原理保持不变。与大学生相比,GPT-3给出的正确答案略低于60%,但远高于平均水平。这表明该算法犯下的错误与人类相同,决策过程可能非常相似。

除了Raven矩阵之外,该研究还包括来自美国标准化入学考试(SAT)的算法任务,其中许多变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。此外,该模型还表现出了一些空间思维任务中的困难,比如解释如何用管子、剪刀或胶带将软糖从一个碗转移到另一个碗的问题时,其回答无意义且无法理解。

这项工作提出了一个新的问题:大型语言模型是否模仿了人类思维的许多方面,还是我们面临一种全新的思维方式?如果是后者,那么与哲学概念“车里的幽灵”有关联,即机器系统可以获得不可预见特性,与人类意识难以区分。

尽管这个研究具有两个重大局限性——即它不能保证GPT-3在训练过程中遇到了与上述类似的任务,以及科学家无法进入模型“内部”,使得其“思考”过程成为黑箱操作——但是它为神经科学和人工智能领域提供了一些有趣见解和挑战,为进一步探索人的独特认知功能打开了解锁的大门。此外,该研究已经发表在《自然人类行为》杂志上,并可在arXiv网站上的公共领域获取其预印本版本。