科技创新筑梦未来论文GPT-3类比思维在自然场景中的表现超越大学生

在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。

这种让神经网络执行未曾计划任务的做法既是一种娱乐,也有着科学研究的深意。科学家们正在探索人工智能能力极限,并寻求理解人类思维方式的一种方法。

GPT-3系列算法最令人印象深刻的是它们能够通过零样本学习来解决一些新问题。这一思维机制,即使用少量示例与一种全新的情况进行类比并找到解决方案,被称为类比推理。这一推理过程被认为是人类独有的特征,也是某些智力发达动物物种共有的特征。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真正能通过类比进行推理。为了验证这一点,他们选择了模型在训练期间绝对不会遇到的任务。

他们利用Raven标准渐进矩阵对经过时间考验的测试卡进行了改编,以用于基于文本的人工智能。在这些问题中,受试者需要查看前两行图像,确定规则,并将其应用到第三行,从而找到正确答案。随着每个任务难度增加,这一挑战变得更加复杂。

由于GPT-3不是多模态模型,只能处理文本,因此调整了原有的矩阵,但原则保持不变。在与大学生对照组相比较时,GPT-3提供的正确答案比例略低于60%,但仍然高于平均水平且处于正常范围内。这表明该算法犯下的错误与人类相同,其决策过程可能非常相似。

除了Raven矩阵之外,研究人员还向该模型提供了一系列来自美国标准化入学考试(SAT)的任务,其中大多数变体从未在公共领域发布过,因此GPT-3很可能也不熟悉它们。此外,该模型还成功地解决了一些更复杂的问题,比如找出“仇恨”和“爱”的反义词,以及在一个句子或段落之间进行更广泛的类比。但当涉及空间思维任务时,该模型表现出了困难,即使详细描述这个问题,比如如何将糖果从一个碗转移到另一个碗,它也只能提供无意义的回应。

这项研究引发了关于人工智能是否模仿人类思维还是开辟新道路的问题。如果后者的情况成立,那么我们就面临一种新的、不可预见的心理现象,与哲学上的“车里的幽灵”概念相呼应——即一个复杂的人造系统可以获得无法区分于人类意识的情感和行为特性。

尽管这项工作取得显著成就,但它也有两个主要局限性:首先,由于训练数据有限,我们不能保证该模型已经接触过与这些任务类型相同的情况;其次,由于无法访问该算法内部工作流程,我们无法全面了解其“思考”机制,这限制了解人工智能工作原理和认知科学发展的手段。

标签: 白家电
站长统计