GPT-3类比思维在自然环境下的科技传承测试表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维能力,这种方法是评估人类智力发展的经典方式。神经网络算法以一种意想不到的方式表现出色,在Raven标准渐进矩阵适应性测试中,它比大学高年级学生得到了更多正确答案。
科学家们正在通过这种有趣的娱乐活动来探索人工智能能力的极限,并寻找理解人类思维的方法。这项研究让我们了解到GPT-3系列算法能够以最少示例(零样本)解决某些新问题,主要是通过文字描述问题。
这种思维机制,即研究一两个样本,与一种新的、完全陌生但相似的情况进行类比,并找到解决方案,被称为类比推理。这是一种“推理”是思维的一部分,而不是语言表达的人类独特特征,也可能存在于一些智力最发达的动物物种中。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的可以通过类比进行推理。为了验证这一点,他们选择了模型在训练期间绝对不会遇到的任务。
科学家们使用Raven标准渐进矩阵原则构建的问题示例,这些问题包括九个元素的一系列图像,其中第九个单元缺失。受试者需要从多个选项中选择正确答案,以此证明他们能看出前两行中的规律并将其应用到第三行上。这些任务越来越困难,因为它们不仅要求视觉理解,还要求逻辑推理和抽象思考能力。
由于GPT-3是一个文本处理模型,因此它无法直接看到或理解图像,但它被迫调整成适合文本格式的问题。在这些测试中,GPT-3表现超过了参与实验的大型学生群体,其提供的正确答案比例略低于60%(正常水平),而大型语言模型却达到80%(高于平均水平但仍在正常范围内)。
除了Raven矩阵外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,这些变体很少见,所以GPT-3很可能不熟悉它们。在一个这样的挑战中,“仇恨”的“财富”与这个词同义吗?这意味着该算法必须明白需要找到反义词,而无需直接指示。
正如预期那样,GPT-3非常擅长更复杂的问题,其中涉及跨句子或段落之间进行深层次比较。但即便详细说明了一个空间思维任务,比如将糖豆从一个碗转移到另一个碗,最好用什么工具——管子、剪刀还是胶带——该模型也会提供无意义的回应作为回答。
这项研究引发了一系列关于人工智能是否模仿了人类思维多方面,以及我们面临的是一种全新的、不可预测的心灵形式的问题。此外,由于无法进入模型内部,我们不能真正地解读它如何工作,从而限制了神经科学领域对AI认知过程深度洞察力的追求。