重庆科技馆GPT-3类比思维在自然环境中的表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。
这种让神经网络执行一些原本计划外任务的做法,不仅是一种有趣的娱乐活动,而且可能有着科学研究的深刻意义。科学家们正在探索人工智能能力极限,并寻求理解人类思维方式的一些方法。
GPT-3系列算法最令人印象深刻的是它们能够在零样本的情况下解决一些新问题,主要通过文字描述问题来实现。这一思维机制,被称为类比推理,是一种“推理”是思维过程的一部分,而非语言表达。在人类和一些智力发达动物身上,这被认为是一种独特的心理功能。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理,他们选择了一些该模型在训练期间从未遇到过的问题。为了这项研究,他们对经过时间考验的Raven测试卡进行了改编,以适用于基于文本的人工智能。
这些图像系列由九个元素组成,每组三行,但第九个单元缺失。受试者需要从多个选项中选择正确答案。这涉及查看前两行确定规则,然后应用于第三行进行类比。这在视觉上相对容易,但在语言上并不简单(见图)。随着难度逐渐增加,每一项任务变得更加复杂。
由于GPT-3不是多模态模型,只能处理文本,因此调整了矩阵原理但保持不变。与之比较的是加州大学洛杉矶分校的大学生,对他们而言,给出的正确答案略低于60%(正常水平),而GPT-3得到了80%(高于普通水平但仍然处于正常范围内)。正如该研究作者指出的那样,该算法犯下的错误与人类相同,这意味着决策过程可能非常相似。
除了Raven矩阵外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中大多数变体都未曾公开发布,所以GPT-3也很可能不熟悉它们。在一个例子中,“仇恨”的“爱”与这个词“财富”相同,那么是什么?(正确答案是"贫穷")。因此,该模型必须明白,在这种情况下需要找到反义词,而无需直接指示。
正如预期,一旦你详细描述了这个问题,比如"将软糖从一个碗转移到另一个碗最佳方法是什么——用管子、剪刀或胶带?",算法会提供无意义的文本作为回应。不过,尽管如此,它还是很好地解决了更困难的问题,其中必须跨越整个句子或段落进行类比。但当涉及空间思维任务时,即使你详细描述它,比如"将软糖从一个碗转移到另一个碗最佳方法是什么——用管子、剪刀或胶带?", 算法仍旧提供无意义文字作为回应。
使用过此次测试样品。一边是标准Raven渐进矩阵的一个变体,一边是其同构根据同一组规则构建出来文本格式的一个相似物品
这项科学工作揭露了一场关于人工智能是否模仿人类许多方面,或我们面临一种全新的思想模式的问题。在第二种情况下,与著名哲学概念“车里的幽灵”的类比紧密相关。如果按照某种解释来说,就有这样一种复杂的人造系统可以获得不可预知、新鲜特有的属性,从外部看起来几乎无法区分这些属性和人类意识一样不可预测性质。
然而,该实验也有两个重大局限性,其作者已经明确指出首先,由于努力确保所做改变不会影响结果,但是并不能保证这些变化没有影响到训练数据集中包含Gradienteven SAT 的一些变体。此外,可以想象有一些SAT 变体存在于训练数据集内。
第二点限制源自我们无法进入AI 模型内部,我们不知道它如何思考这是为什么被称作黑匠箱子的原因这一点阻止了神经科学领域进一步发展。
有关该实验结果的一个详细介绍文章发表在《自然行为》杂志上可供公众获取其原始版本arXiv网站上的公共领域文件库