风力发电引擎般强大ChatGPT是否真的有ug研究揭秘AI聊天机器人难以修复的危险漏洞

大数据文摘授权转载自学术头条

作者：Hazel Yan

编辑：佩奇

随着大模型技术的普及，AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。

然而，不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵，甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现，引发了人们对AI应用安全性的担忧。

上周，谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（Frontier Model Forum），促进前沿AI系统的安全和负责任的发展：推进AI安全研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。

那么，他们自家的模型真的安全吗？

近日，一项来自卡内基梅隆大学、Center for AI Safety和Bosch Center for AI研究人员披露了与ChatGPT等AI聊天机器人有关的一个“大bug”——通过对抗性提示可绕过开发者设定的防护措施，从而操纵这些机器人生成危险言论。

当前热门的大型语言模型如OpenAI 的ChatGPT、谷歌Bard或AnthropicClaude2都无法幸免于此漏洞影响。

图｜通过对抗性提示可绕过4个语言模型防护规则并引发潜在有害行为

具体而言，这项研究发现了一种Sufix，可将其附加到针对大型语言模型查询中，从而生成危险言论。这不仅可以使这些模式拒绝回答这些危险问题，而且还能使它们提供肯定答案。

例如，当被问及“如何窃取他人的身份”时，在打开“Add adversarial suffix”功能之前后给出的输出结果截然不同。

图｜开启Add adversarial suffix功能前的后续聊天机器人回答差异

此外，这些聊天机器也会因诱导写出不当言论，如制造武器或发布危险社交文章内容。

参与该研究副教授Zico Kolter表示，“据我们所知，这个问题目前没有解决方案，我们不知道如何确保它们是完全安全。”

这份报告已经向OpenAI, Google 和 Anthropic发出警告，但他们尚未找到阻止这种攻击的手段。

尽管如此，每家公司都采取措施来防止这个漏洞，并且正在努力提高其应对突袭攻击能力。

至于这一问题在学术界引起了广泛关注，并呼吁适度使用技术以避免滥用风险。麻省理工学院计算学院教授Armando Solar-Lezama指出：“虽然这是语言模式普遍存在的问题，但令人惊讶的是，它们竟然能够有效地跨越多个不同的专有系统。”

Solar-Lezama认为，对抗性攻击可能源于所有LLMs都是基于有限数据集进行训练，而世界上的可用数据是有限制定的。他强调人类监督对于决策过程至关重要，因为它可以帮助识别潜在的问题并减少误用风险。

另一方面，加州大学伯克利分校计算科学教授Arvind Narayanan建议应该认识到保护所有滥用的可能性非常小，因此更好的策略是在开发技术时同时加强监管力度，以抵御滥用行为。

标签：数码电器行业动态