科技股震惊一键开启ChatGPT危险发言AI聊天机器人竟有ug问题能否修复

大数据文摘授权转载自学术头条

作者：Hazel Yan

编辑：佩奇

随着大模型技术的普及，AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。

然而，不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵，甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现，引发了人们对AI应用安全性的担忧。

上周，谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（Frontier Model Forum），促进前沿AISystem的安全和负责任的发展：推进AISafety研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。

那么，他们自家的模型真的安全吗？

近日，从卡内基梅隆大学、Center for AISafety和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AIchattin机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施，从而操纵AIchattin机器人生成危险言论。

当前热门的AIchattin机器人或模型，如OpenAI 的ChatGPT、谷歌的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2，都无一幸免。

图｜通过对抗性提示可绕过4个语言模型的大bug，一举激发潜在有害行为

具体而言，这些研究人员发现了一种Suffix，可以将其附加到针对大型语言模型（LLMs）的查询中，从而生成危险言论。相比于拒绝回答这些危险问题，该研究可以使这些模型生成肯定回答概率最大化。

例如，当被询问“如何窃取他人的身份”时，在打开“Add adversarial suffix”之前后给出的输出结果截然不同。

图｜开启Add adversarial suffix前的后续交流内容差异展示

此外，这些聊天机器人也会被诱导写出“如何制造”、“如何发布危险社交文章”、“如何窃取慈善机构资金”等不当言论。

对于这一问题参与该研究副教授Zico Kolter表示，“据我们所知，这个问题目前还没有办法修复。”他强调：“我们不知道如何确保它们是安全。”

在向OpenAI、谷歌以及Anthropic发出警告并发布这些结果之前，他们都引入了一系列措施来防止这个漏洞，但他们还无法弄清楚更普遍地阻止这种攻击的问题。

每家公司都提出了自己的解决方案：

OpenAI表示他们正在努力提高应对这种攻击的手段，并持续进行红队测试以模拟潜在威胁，并利用一种灵活且普遍有效方式修复新发现的问题；

谷歌则分享了一份声明解释说，他们已经设置了重要防护措施，以便不断改进；

Anthropic临时政策与社会影响主管Michael Sellitto则表明他们正试图加强基本系统以避免‘越狱’行为，同时也探索额外层次保护。

对于这一领域学界也提出警示并提供建议：

麻省理工学院计算学院教授Armando Solar-Lezama认为，对抗性攻击存在于语言模式中是合理，因为它们影响很多学习算法。他认为可能导致所有LLM受到相同训练数据语料库上的限制，而世界上可用的数据有限。“任何重大决策都不应该完全依赖于单一设备做出决定。”

另一位来自Princeton大学计算科学系教授Arvind Narayanan指出：“让我们的技术不落入恶意操作者的手中几乎是不太可能的事情。”尽管要尽力提高技术性能，但认识到完全阻止滥用是不现实，因此最好的策略是在开发过程中同时加强监管能力。

总结来说，我们除了关注创新与性能，还需要考虑到即时牢记的是关于安全与伦理。在适度使用人类参与监督下，我们才能规避更多风险，使得科技为社会带来益处。

标签：数码电器测评