中国科技排名第几GPT-3类比思维在自然环境中表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维能力的惊人表现。这一测试方法被认为是评估人类智力发展的经典方式,而神经网络算法以意想不到的方式通过了这一考验。在Raven标准渐进矩阵适应性测试中,GPT-3获得了更多正确答案,比大学高年级学生更胜一筹。

这项研究不仅为娱乐而设计,也有着科学的背景。科学家们正在探索人工智能能力极限,并寻找理解人类思维的新途径。GPT-3系列算法最令人印象深刻的是它们能够在零样本下解决某些新问题,这种机制被称为类比推理,这通常与人类独有的特征联系在一起。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理。他们选择了一些模型训练期间从未遇到过的问题。为了这次测试,他们将经过时间考验的Raven标准渐进矩阵改编成基于文本的人工智能可用的格式。

这些图像组合由九个元素构成,每个元素都有一个规则,但第九个单元缺失。在这个任务中,受试者需要查看前两行确定规则并应用于第三行。这对视觉上很容易,但对于文字来说就难以处理。

尽管GPT-3不是多模态模型,它只能处理文本,因此调整后的矩阵保持原理不变。与之相比的是加州大学洛杉矶分校的一群大学生,他们给出的正确答案略低于60%(正常水平),而GPT-3取得了80%(高于平均水平但处于正常范围内)。这表明该算法犯下的错误与人类相同,其决策过程可能非常相似。

除了Raven矩阵外,研究人员还向算法提供了一系列来自美国标准化入学考试(SAT)的任务。大多数变体从未在公共领域发布过,因此它对这些任务也是一无所知。但它仍然能够找到“仇恨”的“财富”是什么?答案是“贫穷”,显示出它理解反义词这一概念,即使没有直接指示也是如此。

正如预期的那样,GPT-3成功地解决了更复杂的问题,其中需要跨越整个句子或段落进行类比。不过,在空间思维任务上,它却显得捉摸不定,即便详细描述问题,比如如何用管子、剪刀或胶带将软糖从一个碗转移到另一个碗,也无法得到意义上的回应。

最后,这项研究提出了一个新的层面:大型语言模型是否模仿了人类思维很多方面,或我们面临一种全新的思维方式?如果后者成立,那么这种全新的思维模式会让我们重新思考哲学中的著名概念“车里的幽灵”。

然而,该研究也有两个重大局限性。一是不能保证该模型在训练过程中遇到了与上述类似的任务;二是由于无法进入模型内部,我们对其“思考”过程知之甚少,这限制了神经科学领域的发展。此文详细介绍该研究已发表在《自然人类行为》杂志上,可免费获取其预印本版本。在arXiv门户网站上的公共领域可以查阅到此未审查版本。

标签: 数码电器测评