我是科技之光GPT-3 在自然场景下的类比思维测试表现超越大学生

在一个静谧的自然环境中,我,科技之光,以我的智慧与创造力,展现了GPT-3语言模型的非凡能力。它以意想不到的方式通过类比解决了不熟悉的问题,这是人类智力发展的一个经典测试方法。

我将神经网络算法带入了一些原本没有预期做的事情,这是一种既有趣又富有科学价值的娱乐形式。随着开放式聊天机器人如ChatGPT等语言模型的普及,每个互联网用户都可能会遇到这种娱乐体验。然而,这样的行为可能背后隐藏着深刻的科学原因。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的一种方法。

最令人印象深刻的是,GPT-3系列算法能够在零样本下解决某些新问题,只需用文字描述问题即可。这一思维机制,即研究一两个样本,与一种全新的、完全陌生的但相似的情况进行类比,并找到解决方案,被称为类比推理。这是指“推理”作为思维的一部分,而不是仅仅是语言表达形式。在人类和一些智力最发达的动物物种中,都存在这一独特特征。

加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能通过类比进行推理,为此,他们选择了一个模型训练期间绝对不会遇到的任务。

他们使用Raven标准渐进矩阵对经过时间考验的测试卡进行了改编,以适用于基于文本的人工智能。在这些图形上,有九个元素,一组缺失单元要求受试者从多个选项中选择正确答案。要正确回答,您需要查看前两行,确定规则,然后应用于第三行。这在视觉上很容易被感知,但在语言上并不容易(见图)。接下来的每一项任务难度都会增加。

由于GPT-3不是多模态模型,它只能处理文本,因此矩阵已调整,但原理保持不变。在对照组中的大学生给出了略低于60%正确答案,而GPT-3提供了80%正确答案,比学生高出20%,但仍然处于正常范围内。此外,该算法犯下的错误与人类相同,从而表明决策过程可能非常相似。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务,其中大多数变体从未公开发布,因此 GPT-3 很可能也不熟悉它们。但即使如此,该模型仍能准确地解决更困难的问题,其中必须跨整个句子或段落进行类比。不过,对空间思维任务,它却显得束手无策,即使详细描述这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,该算法也只会提供无意义的话语作为回应。

这项研究提出了一个重要问题:大型语言模型是否模仿了许多方面的人类思维,或我们面临的是一种全新的思维方式?如果是后者,那么与哲学概念“车里的幽灵”的比较就不言而喻——机器系统可以获得不可预见且复杂的人性化特质,使其几乎无法区分与人类意识之间差别。

尽管这项工作取得重大突破,但它也存在两个主要局限性,其作者指出其中之一就是无法保证训练数据中包含与实验所涉及类型相同的问题。而且,由于不能进入模式内部,“思考”过程成为黑箱操作,这阻碍了解神经网络工作原理和进一步发展神经科学领域的手段。一篇详细介绍该研究结果的地球生物学文章已经发表,在arXiv网站上可供公众免费下载阅读。