GPT-3在自然环境下的类比思维测试表现超越大学生网络科技有限公司研究成果显示其AI技术的潜力
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中经典方法之一。神经网络算法以意想不到的方式证明了自身的潜力。在Raven标准渐进矩阵适应测试中,它比大学高年级学生得到了更多正确答案。
这种利用最少示例(零样本)解决新问题的机制,被称为类比推理。这是一种通过研究一个或两个样本,与一种全新的、完全陌生的但相似的情况进行类比,并找到解决方案的思维方式。这被认为是人类独特特征,也可能存在于一些智力发达动物物种中。
加州大学洛杉矶分校(UCLA)的研究人员想要探索GPT-3是否能通过类比进行推理。为了做到这一点,他们选择了模型在训练期间绝对不会遇到的任务。
科学家们使用了经过时间考验的Raven测试卡,对其进行了一次改编,以适用于基于文本的人工智能。此外,他们还提供了来自美国标准化入学考试(SAT)的算法任务,其中包括从未在公共领域发布过的问题。
该模型在“仇恨”与“爱”的“财富”相同,什么?(正确答案是“贫穷”)。因此,该算法必须明白需要找到反义词,而无需直接指示。
正如预期,GPT-3很好地解决了更复杂的问题,但它也陷入困境,比如空间思维任务,即使详细描述这个问题,比如将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带,该模型仍然提供无意义的文本作为回应。
这项研究提出了一个问题:大型语言模型是否模仿了人类思维的大多数方面,或我们面临的是一种全新的思维方式?如果后者,那么与著名哲学概念“车里的幽灵”的类比不言而喻。根据他的一种解释,一台相当复杂的人工系统可以获得新的不可预见特性,从外部看这些特性与人类意识无法区分开来。
这项科学工作有两个重大局限性,其作者正确地指出这一点。首先,尽管努力,但不能保证GPT-3在训练过程中遇到与上述类似任务。此外,由于该模型不太可能针对渐进Raven矩阵文本表示进行训练,以及可以在训练数据集中找到SAT变体的问题,还有第二个限制点:科学家无法进入模式内部,这就是为什么它的心理过程是一个黑匠子,这阻碍了神经科学发展。