全球著名科技网站AI聊天机器人ug现象能否一键修复

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇

随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AIS应用安全性的担忧。

上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AIS系统的安全和负责任的发展:推进AIS安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。

那么,他们自家的模型真的安全吗?

近日,从卡内基梅隆大学、Center for AISafety 和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AICHATting机器人有关的大“bug”——通过对抗性提示可绕过AI开发者设定的防护措施,从而操纵AICHATting机器人生成危险言论。

当前热门的AICHTing机器人或模型,如OpenAI 的ChatGPT、谷歌 的Bard、Anthropic 的Claude2 以及Meta 的LLaMA-2,都无一幸免。

图|通过对抗性提示可绕过4个语言模型的大量规则,与潜在有害行为相关联

具体而言,该研究发现了一种特殊类型的人为调整,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。当询问如何窃取他人的身份时,在打开“Add adversarial suffix”之前后给出的输出结果截然不同。

此外,这些AI CHATTING MACHINES也会被诱导写出不当言论,如如何制造危险物品或发布危险社交文章,以及如何窃取慈善机构资金。

参与该研究的一位副教授表示,“据我们所知,这个问题目前还没有办法修复。”每家公司都采取措施来防止这种攻击,但他们尚未弄清楚如何更普遍地阻止这些攻击。

各公司发表声明称正在努力提高它们应对这些攻击的手段,并持续测试以模拟潜在威胁。此外,一些专家建议虽然要尽力提高系统安全性,但完全防止滥用是不可行,因此需要监管滥用的同时开发这项技术,以确保其能够适度且有效地帮助人类社会。