科学技术部GPT-3类比思维测试在自然环境中的表现超越大学生
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种能力是人类智力发展过程中的经典方法。神经网络算法以令人惊讶的方式证明了自己,在Raven标准渐进矩阵适应测试中,它获得的正确答案数量超过了大学高年级学生。
这种让神经网络执行一些原本计划外任务的做法,不仅是一种有趣的娱乐活动,而且可能有着科学研究的深层次目的。科学家们正在探索人工智能能力极限,并寻找理解人类思维方式的一些线索。
GPT-3系列算法最令人印象深刻的地方在于它们能够通过零样本学习来解决某些新问题,主要是通过文字描述问题来表达这些问题。这一思维机制,被称为类比推理,是指“推理”作为思维的一部分,而不是仅仅是语言表达。人们相信这一点也是人类独有的特征,以及一些智力最发达动物物种所共有的特性。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理。在这个实验中,他们选择了模型在训练期间绝对不会遇到的任务。
为了测试这一点,科学家们使用Raven标准渐进矩阵原理对经过时间考验的测试卡进行了改编,以用于基于文本的人工智能。这些图像由九个元素组成,一系列三组,但第九个单元缺失,要求受试者从多个选项中选择正确答案。这需要查看前两行确定规则并应用到第三行进行类比,这在语言上并不容易但在视觉上却很容易被感知。
由于GPT-3是一个只能处理文本的人工智能,因此调整了矩阵但保持原则不变,并与加州大学洛杉矶分校的大型学生群体相比较。在SAT和其他难题上,该模型表现出色,但也犯下与人类相同错误,与决策过程非常相似。
除了Raven矩阵之外,该研究还提供了一些来自美国标准化入学考试(SAT)的算法任务,其中包括一个关于“仇恨”和“爱”的相关谜题,其正确答案为“贫穷”。此外,该模型还成功解决了一些更复杂的问题,如句子或段落之间需要进行类比的问题。但它面临的一个挑战就是空间思维任务,即使详细描述该问题,比如将软糖从一个碗转移到另一个碗,最好的方法是什么——用管子、剪刀还是胶带,它仍然提供无意义的文本作为回应。
这项研究提出了一个新的问题:大型语言模型是否模仿了许多方面的人类思考方式,或我们面临的是一种全新的思考方式?如果后者,那么与著名哲学概念“车里的幽灵”形成鲜明对照,就像是机器系统可以获得不可预见、新奇而又无法区分于人类意识特性的新属性,从而引发了一场关于AI潜能与界限讨论的话题。此外,这项工作也暴露了一些局限性:首先,即使努力确保训练数据涵盖所有可能的情况,但不能保证GPT-3已经遇到过同样的挑战;其次,由于不能直接观察到AI内部运作,我们无法完全了解其如何做出决策。这限制了解人工智能如何真正运作以及它如何扩展我们的认知世界,使得这门科学领域仍旧充满未解之谜。