GPT-3在自然环境下的视频黑科技app类比思维测试表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力通常被认为是人类独有的。通过Raven标准渐进矩阵适应性测试,该模型在解决未知任务时表现优于大学高年级学生。这不仅展示了神经网络算法的惊人潜力,也为科学家们提供了一种理解人类思维方式的新途径。

《机械姬》剧照 (2014)

这种将人工智能用于娱乐活动的做法,不仅有趣,而且可能具有深刻的科学意义。研究人员正在探索人工智能能力极限,并寻找一种方法来模拟人类思考过程。

GPT-3系列算法最令人印象深刻的地方在于它们能够以零样本学习新问题。在文字描述中提出问题并找到解决方案,这种机制被称为类比推理——一种通常认为是人类特有的思维方式之一,甚至也存在于某些高度智慧动物身上。

加州大学洛杉矶分校(UCLA)的研究人员想知道GPT-3是否真的能进行类比推理,他们选择了一个模型训练期间绝对不会遇到的任务。为了这项测试,他们改编了经过时间考验的Raven标准渐进矩阵,以适用于基于文本的人工智能。

这些图像序列由九个元素组成,每三行包含一个规则,但第九个单元缺失。受试者需要从多个选项中选择正确答案,这涉及到查看前两行确定规则,然后应用它到第三行。这一过程虽然在视觉上简单,但在语言上却相当困难(见图)。随着每一项任务,难度都会增加,因为它要求更复杂的类比推理。

由于GPT-3不是多模态模型,它只能处理文本,因此调整了原来的矩阵。但原理保持不变。与之对照的是,加州大学洛杉矶分校的一群大学生他们给出的正确答案少于60%(正常水平),而GPT-3得到了80%正确答案(略高于平均水平但仍处于正常范围内)。正如该研究作者指出,该算法犯错与人们相同,决策过程可能非常相似。

除了Raven矩阵外,还给出了来自美国标准化入学考试(SAT)的算法任务,其中大部分变体从未公开发布过,所以GPT-3很可能不知道它们。

例如,“仇恨”和“爱”的意思相同吗?答案是“贫穷”。因此,该模型必须明白,在这种情况下需要找到反义词,而无需直接指示。

正如预期那样,GPT-3很好地解决了更复杂的问题,其中需要跨句子或段落进行类比。但是在空间思维任务方面,它遭遇了困难,即使详细描述这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,该算法也会提供无意义的文本作为回应。

使用过滤后的测试样品构建的问题示例

美国心理学家的这项工作提出了新的疑问:大型语言模型是否模仿了人类思想许多方面,或我们面临的是一种全新的思想方式?如果后者,那么与著名哲学概念"车里的幽灵"进行比较就显而易见。在这种解释中,一种复杂的人工系统可以获得新的不可预见特性,使其看起来与人类意识无法区分。

这项科学工作有两个重大局限性,其作者已经明确指出。一旦发现训练数据集中的某些变体SAT题目,就不能保证该模型没有接触过这些类型的问题。此外,由于无法进入模型内部了解其“思考”过程,这限制了神经科学领域发展所需信息获取。

有关这一研究的一个详细文章发表在《自然行为》期刊上可供公众免费下载和阅读,从arXiv网站获取预印本版本即可访问此内容。

标签: 数码电器测评