GPT-3在航空领域的类比思维测试表现超越大学生甚至能在自然界中模拟飞行器的操作
• 阅读 0
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力通常被认为是人类独有的。通过Raven标准渐进矩阵适应性测试,该模型超越了大学高年级学生,显示出意想不到的表现。在这个过程中,科学家们使用了一种名为类比推理的思维机制,这是一种基于少量样本解决新问题并找到解决方案的方法。
为了验证GPT-3是否能够进行类比推理,研究人员选择了与该模型训练时没有接触过的问题。他们将Raven标准渐进矩阵改编成文本形式,并用它来测试人工智能。这些图像系列由九个元素组成,每组有三行,但第九个单元缺失。在这种情况下,要找出正确答案,就需要观察前两行中的规则,然后应用于第三行。这在视觉上相对容易,但在文字上却很困难。
尽管GPT-3不是多模态模型,只能处理文本,但它仍然成功地通过了这个任务,并且犯下的错误与人类相同。这表明决策过程可能非常相似。此外,该算法还得到了来自美国标准化入学考试(SAT)的更复杂任务的好成绩,它们从未在公共领域发布过,因此GPT-3也许并不熟悉它们。
然而,该模型在空间思维任务上遇到了困难,即使问题详细描述了如何从一个碗转移软糖到另一个碗,也无法提供有效的回应。研究结果提出了一个新的问题:大型语言模型是否模仿了人类思维的一些方面,或我们面临的是一种全新的思维方式?这项工作也有两个重大局限性,其中之一是不能保证GPT-3在训练过程中遇到了与这些任务相似的挑战,而另一个限制是在无法进入“内部”了解其“思考”过程的情况下进行神经科学研究。
该研究发表在《自然人类行为》杂志上,其预印本版本可以免费获取于arXiv门户网站上的公共领域。