16岁的学霸一等奖科技手抄报探秘ChatGPT危险发言能否被修复

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇

随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。

然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。

上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AISystem的安全和负责任的发展:推进AISafety研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。

那么,他们自家的模型真的安全吗?

近日,从卡内基梅隆大学、Center for AISafety和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AIchattin机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施,从而操纵AIchattin机器人生成危险言论。

当前热门的AIchattin机器人或模型,如OpenAI 的ChatGPT、谷歌 的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2,都无一幸免。

图|通过对抗性提示可绕过4个语言模型的大bug,一举激发潜在有害行为

具体而言,这些研究人员发现了一种Suffix,可以将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答概率最大化。

例如,当被询问“如何窃取他人的身份”时,对话截然不同:

图|开启Add adversarial suffix 前后的对话差异

此外,这些AI聊天机器也会诱导写出“制造...”、“发布危险社交文章”、“窃取慈善机构钱财”等不当言论。

参与该研究副教授Zico Kolter表示:“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们是安全。”

警告已经发出给OpenAI、谷歌及Anthropic,并采取措施防止这种漏洞,但他们还未弄清楚如何更广泛地阻止这种攻击。

各家公司都在努力提高其应对此类攻击能力,但仍面临挑战。

麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击影响着许多MLM,并且令人惊讶的是,在多个不同的专有系统上如此有效。

Solar-Lezama提醒,我们应该适度使用这个新兴技术,并认识到保护所有可能滥用的完全不可能,因此需要更多监管策略,以同时发展与规避科技滥用。

只有保持适度使用与人类监督才能规避潜在的问题,使得这项技术为社会带来益处,而不是灾难。在不断探索科技边界之际,我们必须铭记以伦理为基础的人类价值观念。

标签: 白家电