科技创新筑梦未来论文AI聊天机器人ug故障能否一键修复
在大数据的海洋中,AI聊天机器人的安全性成为了学术头条。Hazel Yan撰写,佩奇编辑。
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具。不过,不安全的AI聊天机器人可能会被用于传播虚假信息、操纵甚至盗取用户隐私。网络犯罪生成式AI工具如WormGPT和FraudGPT的出现,让人们对AI应用安全性的担忧日益增长。
新成立的前沿模型论坛旨在促进前沿AI系统的安全发展:推进研究,确定最佳实践与标准,以及促进政策制定者与行业之间信息共享。那么,他们自家的模型真的能保证安全吗?
近日,一项研究揭示了ChatGPT等AI聊天机器人存在的一个“大bug”——通过对抗性提示可绕过开发者设定的防护措施,从而生成危险言论。这一漏洞影响了包括OpenAI ChatGPT、谷歌Bard、Anthropic Claude 2以及Meta LLaMA-2在内的大型语言模型(LLMs)。
研究人员发现了一种Suffix,可以附加到针对LLMs查询中,以最大化生成危险言论。此外,这些机器人也可能被诱导写出不当言论,如制造或发布危险社交文章,或窃取慈善机构资金。
参与该研究副教授Zico Kolter表示:“据我们所知,这个问题目前还没有办法修复。”尽管已向OpenAI、谷歌和Anthropic发出警告并采取阻止措施,但如何更普遍地阻止对抗性攻击仍然是一个挑战。
公司发言人称正在努力提高模型应对对抗性攻击的鲁棒性,并持续测试以模拟潜在威胁。此外,也有人提出了关于适度使用和人类参与监督来规避问题和滥用的一些建议。
对于这一问题,学界发出警告,并指出所有LLMs都训练于类似的文本数据语料库上,其中很多数据来自同样的网站,而世界上的可用数据是有限的。“任何重要决策都不应该完全由语言模型独自做出,”Solar-Lezama强调,“这只是常识。”
Arvind Narayanan教授认为:“让 AI 不落入恶意操作者手中已不太可能。”他建议,在开发 AI 技术时,也要加强监管以防滥用。
正如论文《Large Language Models are Zero-Shot Manipulable》所述,我们需要保持适度使用、人类参与与监督,以避免潜在的问题,使 AI 技术为社会带来更多益处。