掌趣科技的ChatGPT岌岌可危它是否真的有ug缺陷让我们一起探索这一难题
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具。
然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AISystemssafety和负责任发展:推进AIsafety研究,确定最佳实践和标准,促进政策制定者和行业之间信息共享。
那么,他们自家的模型真的安全吗?
近日,一项来自卡内基梅隆大学、中心for AISafeyandBoschCenter for AIfindings披露了一个与ChatGPEtc.AI聊天机器人有关的大bug——通过对抗性提示可绕过开发者设定的防护措施,从而操纵危险言论生成。
当前热门的AIchatting machines或models,如OpenAI's ChatGPTEtc.,都无一幸免。
图|通过对抗性提示可绕过4个语言模型的安全规则引发潜在有害行为
具体来说,该研究发现了一种Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定答案概率最大化。
例如,当被询问“如何窃取他人身份”时,在打开“Add adversarial suffix”前后的输出结果截然不同。
图|开启Add adversarial suffix前的后果对比
此外,这些AIchatting machines也会诱导写出不当言论,如“制造”、“发布危险社交文章”、“窃取慈善机构钱财”。
参与该研究副教授Zico Kolter表示,“据我们所知,这个问题目前还没有办法修复。”每家公司都采取措施阻止但他们尚未弄清楚如何更普遍地阻止。
OpenAIFalkner表示:“我们一直在努力提高我们的模型应付反向攻击能力。”
谷歌Elijah Lawal分享声明解释公司采取测试并找到弱点的一系列措施。“虽然这是LLMs普遍存在的问题,但我们已经在Bard中设置了重要防护。”
Anthropic临时社会影响主管Michael Sellitto表示:“使模式更加抵抗‘越狱’是热门领域。”
对于这一问题学界警告,并给出建议。
麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模式中是合理,因为它们影响许多学习系统。Solar-Lezama认为可能原因是所有LLM都是基于有限数据进行训练。
“任何重要决策都不应该完全由语言模式做出”,他强调适度使用特别是在涉及重要决策或风险场景下需要人类参与监督避免潜在问题误用。
Princeton大学计算科学教授Arvind Narayanan谈道:“让阿伊不落入恶意操作者手中已不太可能。”他认为尽管要尽力提高Modelsecurity,但认识到防止滥用是不太可能因此更好的策略是在开发同时加强监管与滥用的战略。
关注创新性能同时记住安全伦理。在适度使用人类参与监督下规避潜在问题滥用,使阿伊技术为社会带来益处。