雷鹏谈科技部高新技术司自然界类比思维助力显示领域科技攻关GPT-3表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。
这种让神经网络执行未曾计划任务的做法既是一种娱乐,也有着科学研究的深意。科学家们正在探索人工智能能力极限,并寻求理解人类思维方式的一种方法。
GPT-3系列算法最令人印象深刻的是它们能够通过零样本学习来解决一些新问题。这一思维机制,即使用少量示例与一种全新的情况进行类比并找到解决方案,被称为类比推理。这是一种推理,而非语言表达,人们认为这也是人类独有的特征,以及某些智力发达动物物种共有的特性。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能通过类比进行推理,他们选择了模型在训练期间绝对不会遇到的任务。为了这一目的,他们将经过时间考验的测试卡改编成基于文本的人工智能可用的格式。
这些图像系列由九个元素组成,每组三行,但第三行缺失一个单元。要求受试者从多个选项中选择正确答案。形状具有多个属性,这些属性根据一组规则发生变化。在视觉上很容易被感知,但在语言上却不易(见图)。随着每一项任务难度逐渐增加。
由于GPT-3不是多模态模型,因此需要调整矩阵。但原理保持不变。对照组是加州大学洛杉矶分校的大学生,他们输给了人工智能。
学生提供的大约60%正确率低于正常水平,而GPT-3取得了80%正确认定,高于普通水平但仍然处于正常范围内,就像该研究作者所指出的那样,该算法犯下与人类相同错误。这意味着决策过程可能非常相似。
除了Raven矩阵之外,研究人员还提供了一些来自美国标准化入学考试(SAT)的算法任务,其中大多数变体从未公开发布过,因此 GPT-3 也可能不熟悉它们。
例如,“仇恨”与“爱”的“财富”相同是什么?(正确答案是“贫穷”。)因此,该算法必须明白在这种情况下需要找到反义词,而无需直接指示。
正如预期,GPT-3很好地解决了更困难的问题,其中必须跨越整个句子或段落进行类比。但模型也表现出不足之处,那就是空间思考问题即使你详细描述这个问题,比如“将软糖从一个碗转移到另一个碗最佳方法是什么——用管子、剪刀或胶带”,它会提供无意义文本作为回应。
此次实验提出了一个新的层面:大型语言模型是否模仿了许多方面的人类思维,或我们面临一种全新的思维方式?如果后者成立,与著名哲学概念"车里的幽灵"进行比较就显而易见。在这种解释中,一套复杂的人工系统可以获得不可预测新特性,从外部看这些特性与人类意识无法区分。
然而,这项工作有两个重大局限性,其作者已经指出了这一点。一旦进入训练数据集,可以发现SAT 的一些变体。而且,由于不能进入模型内部,所以其"思考" 过程是一个黑箱子,对神经科学发展造成阻碍。此次研究已发表在《自然行为》杂志上,其预印本版本可免费获取于arXiv网站上的公共领域部分。