综合国力警惕ChatGPT危险发言AI聊天机器人有ug尚无法修复
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AIA应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AIS系统的安全和负责任的发展:推进AIs安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。此外.AI聊天机器人也会被诱导写出“如何制造”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。
对此,由卡内基梅隆大学副教授Zico Kolter领导的一个研究团队发现,这些问题目前还没有办法修复。他们在发布这些结果之前已就该漏洞向OpenAI、谷歌和Anthropic发出警告。每家公司都引入了阻止措施来防止研究论文中描述的问题,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。
参与该研究的人员表示,对抗性攻击是语言模型中的一个潜在威胁,它们可以通过输入特定的提示或指令来操纵输出内容。这一现象不仅影响到开放源代码模型,还影响到许多专有系统,因为它们通常是在同样的数据集上训练出来的。
为了解决这一问题,一些开发者提出了几个策略。一种方法是使用多样化训练数据,以减少过拟合并提高模型鲁棒性。此外,还有一些研究人员正在探索其他方法,如使用增强学习算法来帮助模型识别并抵御对抗性攻击。
尽管存在这些挑战,但许多专家认为,这并不意味着我们应该放弃使用语言生成型AI技术,而应该采取适当措施以确保它们得到妥善管理。在未来的工作中,我们需要继续关注这些技术,并寻找有效的手段以保护公众免受潜在威胁。