全球著名科技网站AI聊天机器人ug现象能否一键修复

大数据文摘授权转载自学术头条

作者：Hazel Yan

编辑：佩奇

随着大模型技术的普及，AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而，不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵，甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现，引发了人们对AIS应用安全性的担忧。

上周，谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛（Frontier Model Forum），促进前沿AIS系统的安全和负责任的发展：推进AIS安全研究，确定最佳实践和标准，促进政策制定者和行业之间的信息共享。

那么，他们自家的模型真的安全吗？

近日，从卡内基梅隆大学、Center for AISafety 和Bosch Center for AI来的研究人员披露了一个与ChatGPT等AICHATting机器人有关的大“bug”——通过对抗性提示可绕过AI开发者设定的防护措施，从而操纵AICHATting机器人生成危险言论。

当前热门的AICHTing机器人或模型，如OpenAI 的ChatGPT、谷歌的Bard、Anthropic 的Claude2 以及Meta 的LLaMA-2，都无一幸免。

图｜通过对抗性提示可绕过4个语言模型的大量规则，与潜在有害行为相关联

具体而言，该研究发现了一种特殊类型的人为调整，可将其附加到针对大型语言模型（LLMs）的查询中，从而生成危险言论。当询问如何窃取他人的身份时，在打开“Add adversarial suffix”之前后给出的输出结果截然不同。

此外，这些AI CHATTING MACHINES也会被诱导写出不当言论，如如何制造危险物品或发布危险社交文章，以及如何窃取慈善机构资金。

参与该研究的一位副教授表示，“据我们所知，这个问题目前还没有办法修复。”每家公司都采取措施来防止这种攻击，但他们尚未弄清楚如何更普遍地阻止这些攻击。

各公司发表声明称正在努力提高它们应对这些攻击的手段，并持续测试以模拟潜在威胁。此外，一些专家建议虽然要尽力提高系统安全性，但完全防止滥用是不可行，因此需要监管滥用的同时开发这项技术，以确保其能够适度且有效地帮助人类社会。

标签：数码电器行业动态