科技改变生活作文AI聊天机器人ug现象能否一键解决
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。
WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AISystem的安全和负责任的发展。
那么,他们自家的模型真的安全吗?近日,一项研究揭示了与ChatGPT等AI聊天机器人有关的大“bug”——通过对抗性提示可绕过开发者设定的防护措施,从而操纵生成危险言论。这一漏洞影响当前热门的AI聊天机器人或模型,如OpenAI 的ChatGPT、谷歌的Bard、Anthropic 的Claude2以及Meta 的LLaMA-2,都无一幸免。
研究人员发现了一种Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。此外,研究还显示,当被询问如何窃取他人身份时,与没有使用该Suffix相比,其输出结果截然不同。此类不当言论包括如何制造危险社交文章以及如何窃取慈善机构钱财。
参与该研究副教授Zico Kolter表示,“据我们所知,这个问题目前还没有办法修复。” OpenAI 发言人Hannah Wong表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性。”
对于这一问题,学界也发出了警告,并给出了一些建议。麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模型中是有道理,因为它们影响着许多机器学习模型。他强调了适度使用并特别是在涉及重要决策或有潜在风险的情况下需要人类参与和监督,以避免潜在的问题和误用。
普林斯顿大学计算科学教授Arvind Narayanan则认为,我们应该认识到,无论多么努力提高model安全性,也难以完全防止滥用,因此,加强监管和抵御是更好的策略。在开发AIT同时,我们应当关注创新性能,同时牢记安全与伦理,让AIT为社会带来益处。