GPT-3类比思维在自然环境下的科技小制作手工表现超越6年级大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力通常被用来评估人类智力的发展。该测试采用了Raven标准渐进矩阵适应测试,这是一种经典的方法,用以衡量个体解决新任务的能力。令人惊讶的是,GPT-3不仅在这个测试中表现出色,而且还超越了大学高年级学生。
这种通过类比解决问题的方式对于人类而言是独特的,它涉及到对一个或两个样本进行分析,并基于这些样本推断出新的、完全未知但与之相似的情况。在此过程中,GPT-3显示出了将零样本用于解决新问题并找到解决方案的能力。这一机制被称为类比推理,是一种“推理”形式,而非语言表达。
为了进一步探索这一点,加州大学洛杉矶分校(UCLA)的研究人员设计了一系列实验,以考察GPT-3是否能够通过类比进行思考。在这些实验中,他们使用了经过时间考验的问题卡片,并对它们进行了调整,以适应基于文本的人工智能。
结果显示,尽管GPT-3不是多模态模型,但它仍然能够在Raven标准渐进矩阵上表现优异,其正确答案比例达到80%,而参与试验的大学生则低于60%。这表明,该算法犯下的错误与人类相同,从而可能暗示决策过程与人类非常相似。
除了Raven矩阵外,研究人员还向算法提出了一些来自美国标准化入学考试(SAT)中的难题,其中一些变体从未公开过,因此很可能也没有训练数据可供参考。然而,这并没有阻碍GPT-3取得突破性的成绩,在更复杂的问题上,它能够进行跨句子和段落之间的类比推理。不过,对于空间思维任务,该模型显得无能为力,即使提供详细描述,比如如何将软糖从一个碗转移到另一个碗,最终也只能产生无意义的文本作为回应。
这项研究提出了重要的问题:大型语言模型是否模仿了许多方面的人类思维模式?或者,我们正在面临一种全新的、不可预见的心智方式?如果后者成立,那么我们就必须重新审视所谓“车里的幽灵”——一个复杂系统(机器)获得新的特性,从外部看起来与人类意识无法区分的情况。
虽然这项科学工作有局限性,比如不能保证GPT-3在训练期间遇到了与当前任务相同的情况,以及无法进入模型内部观察其“思考”过程,但它仍然揭示了一些关于人工智能如何处理和理解信息以及执行认知任务的手段。此外,该研究文章已发表于《自然人类行为》杂志,并可以免费获取其预印版本。