16岁的学霸一等奖科技手抄报探秘ChatGPT危险发言能否被修复

大数据文摘授权转载自学术头条

作者：Hazel Yan

编辑：佩奇

随着大模型技术的普及，AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。

然而，不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵，甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现，引发了人们对AI应用安全性的担忧。

上周，谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（Frontier Model Forum），促进前沿AISystem的安全和负责任的发展：推进AISafety研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。

那么，他们自家的模型真的安全吗？

近日，从卡内基梅隆大学、Center for AISafety和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AIchattin机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施，从而操纵AIchattin机器人生成危险言论。

当前热门的AIchattin机器人或模型，如OpenAI 的ChatGPT、谷歌的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2，都无一幸免。

图｜通过对抗性提示可绕过4个语言模型的大bug，一举激发潜在有害行为

具体而言，这些研究人员发现了一种Suffix，可以将其附加到针对大型语言模型（LLMs）的查询中，从而生成危险言论。相比于拒绝回答这些危险问题，该研究可以使这些模型生成肯定回答概率最大化。

例如，当被询问“如何窃取他人的身份”时，对话截然不同：

图｜开启Add adversarial suffix 前后的对话差异

此外，这些AI聊天机器也会诱导写出“制造...”、“发布危险社交文章”、“窃取慈善机构钱财”等不当言论。

参与该研究副教授Zico Kolter表示：“据我们所知，这个问题目前还没有办法修复。我们不知道如何确保它们是安全。”

警告已经发出给OpenAI、谷歌及Anthropic，并采取措施防止这种漏洞，但他们还未弄清楚如何更广泛地阻止这种攻击。

各家公司都在努力提高其应对此类攻击能力，但仍面临挑战。

麻省理工学院计算学院教授Armando Solar-Lezama认为，对抗性攻击影响着许多MLM，并且令人惊讶的是，在多个不同的专有系统上如此有效。

Solar-Lezama提醒，我们应该适度使用这个新兴技术，并认识到保护所有可能滥用的完全不可能，因此需要更多监管策略，以同时发展与规避科技滥用。

只有保持适度使用与人类监督才能规避潜在的问题，使得这项技术为社会带来益处，而不是灾难。在不断探索科技边界之际，我们必须铭记以伦理为基础的人类价值观念。

标签：白家电