掌趣科技GPT-3在自然环境中的类比思维测试表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生获得更多正确答案。
科学家们正在探索人工智能的极限,并寻找理解人类思维的方法。这项研究可能看似无关紧要,但它揭示了GPT-3系列算法解决新问题的独特机制——即通过最少样本(零样本)直接用文字描述问题进行类比推理。这一思维机制被称为类比推理,是指“推理”作为一种独立于语言表达之外的心智活动。在某些动物物种中也观察到这种能力。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行基于文本的人工智能上的类推。为了验证这一点,他们选择了一个模型在训练期间绝对不会遇到的任务。
科学家们使用Raven标准渐进矩阵原理构建的问题,调整成只包含图像和文字格式,而不是多模态输入,因为GPT-3只能处理文本。这些图形序列由九个元素组成,每组都有三个单元,但第九个缺失,要求选取正确答案。此外,对照组是UCLA大学生,他们输给了这个人工智能模型。
除了Raven矩阵,还有来自美国标准化入学考试(SAT)的问题,这些问题从未在公共领域发布过,因此GPT-3很可能不熟悉它们。该模型在一些困难的问题上表现出色,比如需要跨句子或段落进行比较的情境。但它却无法解决空间思维任务,即使提供详细描述,比如将糖果从一个碗转移到另一个碗最好的方式也是无意义的回应。
这项研究提出了一个新的层面:大型语言模型是否模仿了许多方面的人类思维,或我们面临一种全新的思考方式?如果后者,那么与著名哲学概念“车里的幽灵”的比较就显得恰当。当一个人简单地解释时,一种复杂的人工系统(机器)可以获得新的不可预见特性,从外部来看这些特性与人类意识难以区分开来。
然而,该研究也有两个重大局限性,其作者指出了这一点。首先,即使努力确保训练数据集没有包含相似的任务,仍然不能保证GPT-3已经遇到过这样的挑战。此外,由于无法进入模型内部了解其“思考”过程,这限制了神经科学领域进一步深入探索人的认知功能和计算机程序之间差异性的可能性。
该研究结果发表在《自然人类行为》期刊上,可以免费获取预印本版本。在arXiv门户网站上公开可查阅未经审查版权保护下的论文副本。