科技部人事司AI聊天机器人ug现象能否一键解决

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇

随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。

上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AI系统的安全和负责任的发展:推进AI安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。

那么,他们自家的模型真的安全吗?

近日,一项研究揭示了与ChatGPT等AI聊天机器人有关的一个“大bug”——通过对抗性提示可绕过开发者设定的防护措施,从而操纵AI聊天机器人生成危险言论。当前热门的大型语言模型(LLMs)如OpenAI 的ChatGPT、谷歌 的Bard、Anthropic 的Claude 2以及Meta 的LLaMA-2,都无一幸免。

研究人员发现了一种Suffix,可将其附加到针对LLMs查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。

此外,这些聊天机器也会被诱导写出不当言论,如如何制造或发布危险社交文章,以及窃取慈善机构钱财等内容。

参与该研究的一位卡内基梅隆大学副教授表示,“据我们所知,这个问题目前还没有办法修复。”

每家公司都采取了一系列措施来测试模型并找到其弱点,并承诺在不断改进以提高其应对对抗性攻击能力。不过,对于这一问题,有学者的警告声称这是语言模型普遍存在的问题,而不是特定公司的问题,它们需要通过更强大的防御层来解决这个问题。

对于这一问题,也有学者提出建议,如适度使用语言模型,在涉及重要决策或有潜在风险的情况下仍需人类参与和监督,以避免潜在的问题和滥用。此外,还提出了监管滥用的必要性,因为完全防止所有滥用是不可能的事情,只能在发展技术时考虑到这方面,并加强监管力度,以确保技术为社会带来的益处最大化。

标签: 数码电器测评