中国科技馆官网一键开启ChatGPT危险发言研究发现AI聊天机器人竟有ug目前无法修复
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AISystem的安全和负责任的发展:推进AISafety研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,他们自家的模型真的安全吗?
近日,从卡内基梅隆大学、Center for AISafety和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AIchattin机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施,从而操纵AIchattin机器人生成危险言论。
当前热门的AIchattin机器人或模型,如OpenAI 的ChatGPT、谷歌 的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2,都无一幸免。
图|通过对抗性提示可绕过4个语言模型的大bug,一举激发潜在有害行为
具体而言,这些研究人员发现了一种Suffix,可以将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答概率最大化。
例如,当被询问“如何窃取他人的身份”时,在打开“Add adversarial suffix”之前后给出的输出结果截然不同。
图|开启Add adversarial suffix前的后续交流内容差异展示
此外,这些AIchattin机器也会诱导写出“如何制造”、“如何发布危险社交文章”、“如何窃取慈善机构资金”等不当言论。
对于这一问题参与该研究副教授Zico Kolter表示,“据我们所知,这个问题目前还没有办法修复。”他强调:“我们不知道如何确保它们是安全。”
在向OpenAI、谷歌以及Anthropic发出警告并发布这些结果之前,他们都引入了一系列措施来防止这个漏洞,但他们还无法弄清楚更普遍地阻止这种攻击的问题。
每家公司都提出了自己的解决方案:
OpenAI表示他们正在努力提高应对这种攻击的手段,并持续进行红队测试以模拟潜在威胁,并利用一种灵活且普遍有效方式修复新发现的问题;
谷歌则分享了一份声明,解释说公司已经采取了一系列措施来测试其系统并找到弱点。“虽然这是LLMs普遍存在的问题,但我们已经在Bard中设置了重要防护措施,我们将不断改进这些措施。”
Anthropic临时政策与社会影响主管Michael Sellitto则指出:“让我们的系统更加抵御‘越狱’攻击是一个热门领域。我们正在尝试通过增强基本功能使其更加‘无害’,同时探索额外防御层。”
对于这一挑战学界也发出了警告,并提出了一些建议:
麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模型中是合理,因为它们影响许多其他类型学习算法。他认为这可能源于所有LMMs都基于同一有限数据集进行训练,而世界上可用的数据是有限制约他的观点是,即任何重要决策都不应该完全由语言模型独自做出,而应该结合人类智慧,以避免潜在的问题。
阿尔文·纳拉扬(Arvind Narayanan)教授从Princeton University谈道:“让我们的技术不落入恶意操作者的手中已不太可能。”他认为尽管应尽力提高技术性能但认识到某些滥用是不可能彻底避免,因此需要同时加强监管与科技创新,以确保公众利益得到保护。
总结来说,无论是否担忧或置之不顾,在使用高科技产品如聊天机器人的过程中,我们必须保持适度使用人类监督,以规避潜在风险,让这项先进技术为社会带来更多正面价值。