科技部人才与科学普及司发布GPT-3在自然类比思维测试中超越大学生表现
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。
这种让神经网络执行未曾计划做的事情是一种娱乐形式,但它也可能有科学依据。研究人员正在探索人工智能能力极限,并寻找理解人类思维的方法。GPT-3系列算法最令人印象深刻的是它们能够通过零样本问题解决新问题,这种方式使用文字描述问题。
这种思维机制,被称为类比推理,是指“推理”作为思维的一部分,而不是语言表达。这被认为是人类独有的特征,也是某些智力发达动物物种共有的特性。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理,他们选择了一些在模型训练期间绝对不会遇到的任务。他们使用Raven标准渐进矩阵来改编经过时间考验的测试卡,用于基于文本的人工智能。
这些图像由九个元素组成,每组三行,但第九个单元缺失。受试者需要从多个选项中选择正确答案。这涉及到看前两行确定规则并将其应用于第三行。在视觉上容易感知但在语言上并不容易(见图)。随着每一项任务难度增加。
由于GPT-3不是多模态模型,因此矩阵已调整,但原理保持不变。与之对照的是加州大学洛杉矶分校的大学生,他们输给了人工智能。
学生们提供的正确答案略低于60%(正常水平),而GPT-3提供了80%(高于平均水平但在正常范围内)。正如该研究作者所指出的那样,该算法犯了与人类相同的错误。这意味着决策过程可能非常相似。
除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。
该模型将"仇恨"和"爱"等同视为同一个词汇,即"财富";因此,算法必须明白在这种情况下需要找到反义词,而无需直接指示。
正如预期,一切都顺利地解决更困难的问题,其中必须跨越整个句子或段落进行类比。但是,模型却出乎意料地陷入困境,那就是空间思维任务。
即使详细描述这个问题,比如“将软糖从一个碗转移到另一个碗最佳方法是什么——用管子、剪刀或胶带”,算法也会提供无意义的文本作为回应。
这项科学工作有两个重大局限性,其作者已经提到了这一点。一方面,由于努力确保GPT-3没有遇到与这些任务相似的任何内容,在训练期间,它很可能不太可能遇到这样的挑战。此外,还有一点重要的是,可以找到一些SAT 变体甚至是在其训练数据集中出现的情况。
另一方面,由此产生的问题是科学家无法进入模型内部,所以它如何运作是一个黑箱子。这阻碍了解神经网络如何工作和思考的心理学发展。而且,对此事进行详细介绍的一篇文章发表于《自然人类行为》杂志上,其预印本可以免费获取,从arXiv网站访问公众领域版权所有。如果你想了解更多关于这项研究的事实,请查看以下链接 [1] 或者参考相关文献[2] - [5] 来获取最新信息。