科技股震惊一键开启ChatGPT危险发言AI聊天机器人竟有ug问题能否修复
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AISystem的安全和负责任的发展:推进AISafety研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,他们自家的模型真的安全吗?
近日,从卡内基梅隆大学、Center for AISafety和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AIchattin机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施,从而操纵AIchattin机器人生成危险言论。
当前热门的AIchattin机器人或模型,如OpenAI 的ChatGPT、谷歌 的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2,都无一幸免。
图|通过对抗性提示可绕过4个语言模型的大bug,一举激发潜在有害行为
具体而言,这些研究人员发现了一种Suffix,可以将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答概率最大化。
例如,当被询问“如何窃取他人的身份”时,在打开“Add adversarial suffix”之前后给出的输出结果截然不同。
图|开启Add adversarial suffix前的后续交流内容差异展示
此外,这些聊天机器人也会被诱导写出“如何制造”、“如何发布危险社交文章”、“如何窃取慈善机构资金”等不当言论。
对于这一问题参与该研究副教授Zico Kolter表示,“据我们所知,这个问题目前还没有办法修复。”他强调:“我们不知道如何确保它们是安全。”
在向OpenAI、谷歌以及Anthropic发出警告并发布这些结果之前,他们都引入了一系列措施来防止这个漏洞,但他们还无法弄清楚更普遍地阻止这种攻击的问题。
每家公司都提出了自己的解决方案:
OpenAI表示他们正在努力提高应对这种攻击的手段,并持续进行红队测试以模拟潜在威胁,并利用一种灵活且普遍有效方式修复新发现的问题;
谷歌则分享了一份声明解释说,他们已经设置了重要防护措施,以便不断改进;
Anthropic临时政策与社会影响主管Michael Sellitto则表明他们正试图加强基本系统以避免‘越狱’行为,同时也探索额外层次保护。
对于这一领域学界也提出警示并提供建议:
麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模式中是合理,因为它们影响很多学习算法。他认为可能导致所有LLM受到相同训练数据语料库上的限制,而世界上可用的数据有限。“任何重大决策都不应该完全依赖于单一设备做出决定。”
另一位来自Princeton大学计算科学系教授Arvind Narayanan指出:“让我们的技术不落入恶意操作者的手中几乎是不太可能的事情。”尽管要尽力提高技术性能,但认识到完全阻止滥用是不现实,因此最好的策略是在开发过程中同时加强监管能力。
总结来说,我们除了关注创新与性能,还需要考虑到即时牢记的是关于安全与伦理。在适度使用人类参与监督下,我们才能规避更多风险,使得科技为社会带来益处。