GPT-3类比思维在自然环境下的表现超越大学生展示了科技的力量
在美国心理学家的一项测试中,GPT-3语言模型展现出了其类比思维的强大能力,这种方法通常用来衡量人类智力的发展。神经网络算法以意想不到的方式证明了自己,在Raven标准渐进矩阵适应性测试中,它甚至超过了大学高年级学生。
这项研究探索了一种有趣而又科学的方式,即让人工智能系统执行一些原本不打算做的事情。随着开放源代码语言模型如ChatGPT这样的平台,互联网用户们可以尝试这种娱乐形式。不过,这样的行为背后可能隐藏着深刻的科学原因。研究人员正在推动生工智能技术到极限,并寻找理解人类思维的新方法。
GPT-3系列算法最令人印象深刻的地方在于它们能够通过零样本学习解决某些新问题。这意味着仅凭文字描述就能解决问题,这是基于文字描述的问题解决的一个重要方面。这一机制,被称为类比推理,是指“推理”作为一种思维过程,而非简单地表达为语言。这被认为是人类独有的特征,也可能存在于一些其他智力发达动物身上。
加州大学洛杉矶分校(UCLA)的研究人员想要知道GPT-3是否真的能进行类比推理,因此他们设计了一系列任务,以确保这些任务在训练期间不会出现。在这些任务中,他们使用了经过时间考验的Raven标准渐进矩阵,但将其调整成适合文本处理的人工智能模型。
实验结果显示,尽管GPT-3表现出色,但它并没有完全超越人类。在Raven矩阵和SAT类型问题上,它给出的正确答案略低于60%(正常水平),但远高于加州大学洛杉矶分校学生提供答案的水平。此外,该算法犯下的错误与人类相同,这表明决策过程可能非常相似。
除了Raven矩阵外,研究人员还向该模型提供了来自美国标准化入学考试(SAT)的难题,其中多数变体从未公开过,因此GPT-3几乎无法预见它们。此外,该模型表现出对空间思考任务中的困难,比如将软糖从一个碗转移到另一个碗时最佳方法是什么——用管子、剪刀或胶带等,从而展示出它仍有一定的局限性。
总之,这项研究提出了一个新的层次:大型语言模型是否模仿了许多方面的人类思维,或我们面临的是一种全新的思维方式?如果后者成立,那么与著名哲学概念“车里的幽灵”有关联,即复杂的人工系统可以获得不可预见、新奇特性的特征,使得这些特性对外部观察者来说难以区分与人类意识。