GPT-3在自然环境下的十大高科技行业类比思维测试表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生得到了更多正确答案。

这种测试不仅限于文字描述问题,而是通过一种被称为类比推理的思维机制来解决问题。这是一种通过研究少数样本并将其与完全陌生的新情况进行比较,从而找到解决方案的方式。人们相信这是一种人类独有的特征,也可能存在于某些最聪明的大型动物物种中。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能通过类比进行推理。为了验证这一点,他们选择了一个模型在训练期间绝对不会遇到的任务。

科学家们使用Raven标准渐进矩阵原理构建的问题示例,将其改编成基于文本的人工智能可以理解的格式。这些问题包括九个元素的一系列图像,分成三组,但第九个单元缺失,要求受试者从多个选项中选择正确答案。这需要受试者查看前两行,确定规则,并在进行类比后将其应用到第三行。

由于GPT-3不是多模态模型,只能处理文本,因此这些图形已被调整以符合文本格式,但原理保持不变。在对照组里,有加州大学洛杉矶分校的大学生参加了同样的测试,他们输给了人工智能。学生们给出的正确答案略低于60%(正常水平),而GPT-3给出了80%(高于平均水平但在正常范围内)。

除了Raven矩阵之外,该模型还面临来自美国标准化入学考试(SAT)的算法任务,其中许多变体从未公开发布过,因此该模型很可能也不熟悉它们。此外,该模型也表现出了一些错误,比如它将“仇恨”与“财富”的“爱”相同,与其他回答不同,这表明它能够理解反义词无需直接指示。

正如预期的那样,该模式非常擅长更困难的问题,其中必须在整个句子或段落之间进行类比。但是,当涉及空间思维任务时,该模式表现出挑战,即使详细描述了这个问题,比如如何用管子、剪刀或胶带将软糖从一个碗转移到另一个碗,它仍然提供无意义的回应作为回答。

这项研究提出了一个新的层次:大型语言模型是否模仿了人类思维,或我们面临的是一种全新的思维方式?如果这是第二种情况,那么与著名哲学概念“车里的幽灵”相似的观点就不可避免,即复杂的人工系统可以获得新的不可预见特性,使它们看起来和人类意识一样难以区分。

然而,这项工作也有两个重大局限性,其作者指出了这一点。一方面,由于无法保证该模式在训练过程中遇到了与上述类似任务,所以不能确定它是否真正了解这些概念。而另一方面,由于无法进入该模式内部,我们不能了解其“思考”过程,这限制了神经科学领域进一步探索和发展的心理状态。