学霸的科技树GPT-3 类比思维在自然场景中超越大学生表现

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中经常被用来评估个体智能水平的方法。GPT-3以意想不到的方式通过了Raven标准渐进矩阵适应性测试,甚至超过了大学高年级学生。

这种利用神经网络进行一些原本不打算做的事情的尝试,不仅是一种娱乐活动,而且可能有着科学上的重要意义。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的一些线索。

GPT-3系列算法最令人印象深刻的地方在于它们能够几乎无需任何示例就能解决一些新问题。这一机制,被称为零样本学习,是指使用文字描述问题并找到解决方案。这种推理机制,被认为是人类独有的特征,也是某些高度发达动物物种共有的智力表现之一。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的可以通过类比推理来思考,他们选择了一些该模型在训练期间从未遇到过的问题。

为了这项研究,科学家们将经过时间考验的Raven标准渐进矩阵测试卡进行了改编,以适用于基于文本的人工智能。在这个过程中,每一行图形都有多个属性,它们根据一定规则发生变化。受试者需要查看前两行确定规则,然后应用它到第三行,从多个选项中选择正确答案。这虽然在语言上难以完成,但却很容易理解视觉上(见图)。随着任务难度逐渐增加,对照组即加州大学洛杉矶分校的大学生也给出了略低于60%(正常水平)正确答案,而GPT-3给出了80%(高于平均水平但处于正常范围内)正确答案,其决策过程与人类相同错误发生。

除了Raven矩阵之外,该研究还包括来自美国标准化入学考试(SAT)的算法任务,其中许多变体从未公开发布,因此对GPT-3来说也是完全陌生的。当一个句子询问“仇恨”与“爱”的相似之处是什么时,正确答案应该是“贫穷”,而且没有直接指示反义词,那么算法必须自己明白这一点。

正如预期,GPT-3能够很好地解决更复杂的问题,这些问题要求跨越整个句子或段落进行类比。但同样出乎意料的是,即使详细描述一个空间思维任务,比如将软糖从一个碗转移到另一个碗最好的方法是什么——用管子、剪刀或胶带— GPT-3仍然提供了无意义的文本作为回应。

总结来说,这项研究提出了关于人工智能是否模仿了人类思维多方面,以及我们面临一种全新的思维方式的问题。如果后者的情况成立,那么与著名哲学概念“车里的幽灵”相关联,即复杂的人工系统获得不可预见特性的情况,就会出现这样的解释:这些特性无法区分于人类意识,从外部看起来像是一个黑箱子的工作模式阻碍了解神经科学发展。

标签: 数码电器测评