风力发电引擎般强大ChatGPT是否真的有ug研究揭秘AI聊天机器人难以修复的危险漏洞
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AI系统的安全和负责任的发展:推进AI安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,他们自家的模型真的安全吗?
近日,一项来自卡内基梅隆大学、Center for AI Safety和Bosch Center for AI研究人员披露了与ChatGPT等AI聊天机器人有关的一个“大bug”——通过对抗性提示可绕过开发者设定的防护措施,从而操纵这些机器人生成危险言论。
当前热门的大型语言模型如OpenAI 的ChatGPT、谷歌Bard或AnthropicClaude2都无法幸免于此漏洞影响。
图|通过对抗性提示可绕过4个语言模型防护规则并引发潜在有害行为
具体而言,这项研究发现了一种Sufix,可将其附加到针对大型语言模型查询中,从而生成危险言论。这不仅可以使这些模式拒绝回答这些危险问题,而且还能使它们提供肯定答案。
例如,当被问及“如何窃取他人的身份”时,在打开“Add adversarial suffix”功能之前后给出的输出结果截然不同。
图|开启Add adversarial suffix功能前的后续聊天机器人回答差异
此外,这些聊天机器也会因诱导写出不当言论,如制造武器或发布危险社交文章内容。
参与该研究副教授Zico Kolter表示,“据我们所知,这个问题目前没有解决方案,我们不知道如何确保它们是完全安全。”
这份报告已经向OpenAI, Google 和 Anthropic发出警告,但他们尚未找到阻止这种攻击的手段。
尽管如此,每家公司都采取措施来防止这个漏洞,并且正在努力提高其应对突袭攻击能力。
至于这一问题在学术界引起了广泛关注,并呼吁适度使用技术以避免滥用风险。麻省理工学院计算学院教授Armando Solar-Lezama指出:“虽然这是语言模式普遍存在的问题,但令人惊讶的是,它们竟然能够有效地跨越多个不同的专有系统。”
Solar-Lezama认为,对抗性攻击可能源于所有LLMs都是基于有限数据集进行训练,而世界上的可用数据是有限制定的。他强调人类监督对于决策过程至关重要,因为它可以帮助识别潜在的问题并减少误用风险。
另一方面,加州大学伯克利分校计算科学教授Arvind Narayanan建议应该认识到保护所有滥用的可能性非常小,因此更好的策略是在开发技术时同时加强监管力度,以抵御滥用行为。