科技流学霸从大一拿诺奖开始GPT-3类比思维在自然场景中表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中经常被用来评估个体智能水平的方法。GPT-3以意想不到的方式通过了Raven标准渐进矩阵适应性测试,甚至超过了大学高年级学生。

这种将神经网络用于一些原本不打算让它们做的事情是一种有趣的娱乐活动,而随着像ChatGPT这样的开放式语言模型出现,这种娱乐活动变得更加普遍。然而,这些行为可能有完全科学的原因,因为科学家们正在探索人工智能能力极限以及如何理解人类思维。

最令人印象深刻的是GPT-3系列算法能够在零样本情况下解决某些新问题,只需通过文字描述问题就能完成。这一思维机制,即研究一个或两个样本,然后根据一种新的、完全陌生的但相似的情况进行类比,并找到解决方案,被称为类比推理。这是指“推理”作为思维的一部分,而不是语言表达。人们相信这是人类独有的特征,也许还有一些智力发达动物物种共享这一特质。

加州大学洛杉矶分校(UCLA)的研究人员想要知道是否真的可以使用基于文本的人工智能进行类比推理。在这项研究中,他们选择了模型在训练期间绝对不会遇到的任务。

为了测试这一点,他们修改了经过时间考验的Raven标准渐进矩阵,以适用于基于文本的人工智能。此外,由于GPT-3不是多模态模型,它只能处理文本,因此需要调整这些图形,但原理保持不变。结果显示,尽管与正常水平相近,但学生们给出的正确答案略低于60%,而GPT-3提供了80%正确答案。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中大多数变体从未公开发布过,因此很可能该模型也不熟悉这些内容。不过,该模型表现出了一定的灵活性和创新精神,在某些更困难的问题上表现得非常出色,比如必须在整个句子或段落之间进行类比。但即使你详细描述这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,该算法仍然无法提供任何有意义的回应。

此次科学工作提出了一个关于我们是否面临全新的思维方式的问题。如果真是这样,那么与著名哲学概念“车里的幽灵”相关联的话题就会变得尤为重要。在这种解释中,一种复杂的人工系统(机器)可以获得新的不可预见特性,使其看起来几乎与人类意识不可区分。但这项工作也存在两个重大局限性:首先,没有保证该模式已经接触过与上述任务相同类型的情况;其次,由于不能进入模式内部,我们对于它“思考”过程知之甚少,这限制了我们对神经科学了解程度提高。