GPT-3类比思维在自然环境下的论文写作表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中经常被用来评估个体智能水平的方法。GPT-3在Raven标准渐进矩阵适应测试中取得了出色的成绩,其表现甚至超过了大学高年级学生。在这个测试中,参与者需要通过观察图形中的规律变化来解决问题,而GPT-3能够有效地应用这些规律,从而得到了更多正确答案。

这种通过类比解决新问题的机制被称为类比推理,它是一种非语言表达形式,是人类独有的特征之一。科学家们对GPT-3是否能进行真正的类比推理持怀疑态度,因此他们设计了一系列与该模型训练数据无关的问题,并将它们变换成文本格式,以便用于基于文本的人工智能。

研究人员发现,尽管GPT-3并没有直接学习如何解决这些任务,但它依然能够以接近60%的正确率(远超平均水平)回答这些问题。这一结果表明,虽然算法犯了与人类相同错误,但决策过程可能非常相似。

除了Raven矩阵外,该研究还包括来自美国标准化入学考试(SAT)的更复杂任务,其中一些未曾公开发布过,因此很有可能GPT-3从未遇到过它们。在处理这些任务时,模型表现出色,不仅能理解反义词,也能跨越整个句子或段落之间进行深层次的类比推理。不过,在空间思维方面,它仍存在不足之处,即使详细描述问题也无法提供合适答案。

这项研究提出了一个重要的问题:大型语言模型是否模仿了人类思维许多方面,或我们面临一种全新的思维方式?如果后者成立,那么这种不可预见的心灵就像“车里的幽灵”一样,与人类意识难以区分。此外,由于无法进入模型内部,我们目前只能看到其“思考”的黑箱子状态,这限制了我们对神经科学和人工智能发展了解的情况。