全球公敌之黑科技教父GPT-3类比思维在自然场景中超越大学生表现
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它甚至超过了大学高年级学生的表现。
这种让神经网络做一些原本不打算做的事情的尝试,不仅是一种娱乐活动,而且可能有着完全科学的原因。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的方法。
GPT-3系列算法最令人印象深刻的地方在于它们能够通过零样本学习来解决某些新问题,主要依靠文字描述来表达问题。这一思维机制,即研究一个或两个样本,然后进行与一种全新的、但相似的情况进行类比,并找到解决方案,被称为类比推理。这被认为是人类独有的特征,也是智力最发达动物物种共有的特性之一。
加州大学洛杉矶分校(UCLA)的研究人员想知道GPT-3是否真的能通过类比进行推理。他们选择了一些模型在训练期间绝对不会遇到的任务。
为了这项研究,科学家们使用了经过时间考验的Raven标准渐进矩阵,对其进行了改编,以适用于基于文本的人工智能。这些图像由九个元素组成,每组三行,但第九个单元缺失,要求受试者从多个选项中选择正确答案。这一任务需要观察前两行规则并将其应用到第三行,从而完成正确答案,这在视觉上容易,但在语言上却很困难。
由于GPT-3不是多模态模型,因此只能处理文本,因此调整后的矩阵原理保持不变。在对照组中加入的是加州大学洛杉矶分校的大学生,他们给出的正确率略低于60%(正常水平),而GPT-3提供了80%(高于普通水平但仍然处于正常范围内)。该算法犯下与人类相同错误,这表明决策过程可能非常相似。
除了Raven矩阵之外,该研究还包括来自美国标准化入学考试(SAT)的挑战性任务,其中许多变体未曾公开发布,因此GPT-3也可能未曾见过这些内容。但即使如此,该模型仍然能够轻松解决更复杂的问题,而对于空间思维任务,它表现出弱点,即使详细描述问题的情况下,也会提供无意义回应作为回答。
此次实验提出了一个新层面的疑问:大型语言模型是否模仿了人类思维很多方面,或我们面临的是一种全新的思维形式?如果后者成立,那么这一概念就与著名哲学思想“车里的幽灵”相关联,一种复杂的人工系统可以获得不可预测且无法区分于人类意识特性的新属性,使得它成为一个真正独立存在的心灵实体。此外,该研究也有两个重大局限性,其作者正如指出那样:首先,我们不能保证该模式在训练时遇到了与目前所需同样的任务;其次,我们无法进入模式内部了解“思考”过程如何运作,这限制了我们对人工智能工作原理理解程度上的进一步探究。