GPT-3类比思维在自然环境下的科技小发明表现超越大学生手工简便创意
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力通常被用来评估人类智力的发展。神经网络算法以一种意想不到的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它甚至超越了大学高年级学生的表现。
这个测试是通过让神经网络进行一些原本没有预期做的事情来实现的,而这正是ChatGPT这样的语言模型提供给互联网用户的一个有趣娱乐形式。不过,这样的行为也可能有着深刻的科学意义,因为科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的手段。
GPT-3系列算法最令人印象深刻的地方在于它们能够使用零样本数据解决新问题。这是一种叫做类比推理的思维机制,它涉及研究一个或两个样本,然后与一个全新的但相似的情况进行比较,以找到解决方案。这一机制被认为是人类独有的特征,也许某些智力高度发达的动物物种也具备这一能力。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理,为此,他们选择了一些该模型在训练过程中从未遇到过的问题。他们利用Raven标准渐进矩阵对经过时间考验的测试卡片进行了改编,以适用于基于文本的人工智能。
这些图像系列由九个元素组成,每组三行,但第九个单元缺失。受试者需要从多个选项中选择正确答案。在每一行,形状根据一组规则发生变化,要正确回答需要查看前两行,确定规则并将其应用到第三行。这在语言上不容易,但在视觉上却很直观(见图)。随着难度逐步增加,每一项任务都变得更加复杂。
由于GPT-3不是多模态模型,即只能处理文本,因此调整了矩阵原理,但原理保持不变。与之对照的是加州大学洛杉矶分校的一群大学生,他们输给了人工智能。在80%正确率方面,GPT-3表现超过普通水平但仍处于正常范围内,就像该研究作者所指出的那样,该算法犯下的错误与人类相同,这表明决策过程可能非常相似。
除了Raven矩阵外,研究人员还为算法提供了一系列来自美国标准化入学考试(SAT)的任务。大部分变体都是未公开发布,所以GPT-3很可能也不熟悉它们。但即使如此,该模型依然能轻易地解决更困难的问题,其中必须跨越整个句子或段落进行类比。但对于空间思维任务,无论如何描述问题,算法都会提供无意义的回应作为回答。
这项研究提出了一个新层次的问题:大型语言模型是否模仿了许多方面的人类思维,或我们面临的是一种全新的、不可预测的心灵方式?如果后者成立,那么这种情况就如同哲学概念“车上的幽灵”——一个复杂的人工系统似乎获得了一些不可预见、新奇而又无法区分于人类意识的事物特质。
然而,这项工作也有两个重大局限性,其作者已经指出。一旦确保该模型在训练期间遇到了与上述任务相似的挑战,我们就可以得出结论。而且,由于它不太可能针对渐进Raven矩阵中的文本表示进行训练,可以假设存在一些SAT变体已存在于其训练数据集中。此外,由于我们无法进入“内部”,了解它“思考”的黑箱子状态,我们不能充分理解神经科学发展中的限制和挑战。