中国科普网GPT-3在自然类比思维测试中超越大学生表现
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生得到了更多正确答案。
这种测试不仅在科学界引起了兴趣,而且还让人们对GPT-3系列算法和它们解决问题的方式产生了好奇。在开放像ChatGPT这样的语言模型之后,互联网用户几乎每个人都会遇到这种娱乐形式。然而,这样的行为可能有完全科学的理由。科学家们正在探索人工智能能力极限,并寻找理解人类思维的方法。
研究人员从加州大学洛杉矶分校使用Raven标准渐进矩阵来构建问题示例,这些问题包括九个元素的一系列图像,分成三组,但第九个单元缺失。受试者需要从多个选项中选择正确答案。这一任务对于视觉上很容易被感知但语言上并不容易进行推理是一个挑战。
由于GPT-3不是多模态模型,因此它只能处理文本,因此矩阵已进行了调整。但原理保持不变。在开放式的问题上,比如“仇恨”与“爱”的相似之处是什么?(正确答案是“贫穷”),该算法必须明白在这种情况下需要找到反义词,而无需直接指示。
尽管预期地陷入困境——即空间思维任务——但GPT-3很好地解决了更复杂的问题,其中必须在整个句子或段落之间进行类比。此外,该模型犯下的错误与人类相同,从而表明决策过程可能非常相似。
除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。这些建议未曾公开发表,因此 GPT-3 很可能也不熟悉它们。该研究提出了一个重要问题:大型语言模型是否模仿了人类思维许多方面,或我们面临一种全新的思维方式?
这项工作虽然具有重大发现,但也有两个局限性。一方面,由于训练数据集有限,我们不能保证GPT-3已经遇到过与这些类似的任务;另一方面,由于无法进入模型内部,我们不能真正了解其"思考"过程如何运作。这限制了一些神经科学领域的进一步探索。
一篇详细介绍该研究的文章发表在《自然人类行为》杂志上,其预印本可通过arXiv门户网站上的公共领域获取。如果你想了解更多关于这个故事背后的技术和潜力的信息,请继续阅读以下内容...