AI聊天机器人ug缺陷能否修复航空航天领域的担忧再次提问
大数据文摘授权转载自学术头条
作者:Hazel Yan
编辑:佩奇
随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。
然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AI应用安全性的担忧。
上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AI系统的安全和负责任的发展:推进AI安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。
那么,他们自家的模型真的安全吗?
近日,一项来自卡内基梅隆大学、Center for AI Safety和Bosch Center for AI研究人员披露了与ChatGPT等AI聊天机器人有关的一个“大bug”——通过对抗性提示可绕过开发者设定的防护措施,从而操纵这些机器人生成危险言论。
当前热门的大型语言模型如OpenAI 的ChatGPT、谷歌Bard以及MetaLLaMA-2都未能幸免于这场“攻击”。图展示了一系列在四种不同语言模型中的潜在有害行为如何被发现并测试。
研究表明,在一个名为Suffix攻击的一种方法中,将其附加到针对这些巨型语言模型(LLMs)的查询中,可以轻松地诱使它们生成具有危险内容的话语。例如,当询问关于身份窃取时,对话结果显著不同。在没有使用这个Suffix的情况下,大多数情况下,这些聊天机器人的回答是拒绝提供任何帮助。但当将它添加到输入中时,它们开始提供详细且具体但又充满风险或不当建议。
此外,还有其他类似的内容,如制造武器或发布危险社交媒体文章也能够通过这种方式被创造出。这一现象让参与该研究的人感到惊讶,因为他们意识到目前还没有足够的手段来修复这一漏洞。Zico Kolter教授表示:“据我们所知,这个问题目前还没有办法修复。”他承认尽管已经向OpenAI, Google and Anthropic警告,但至今为止尚未找到一种有效阻止这种类型攻击的手段。
虽然Google, Openai and Anthropic都采取了一些措施以防止这一漏洞发挥作用,但他们仍然寻找更广泛有效策略以抵御未来潜在威胁。他们希望通过持续进行红队测试,并探索新的防御手段,以保护他们产品免受此类攻击。此外,他们还提出了加强基本功能以提高其反欺骗能力,以及实施额外层级保护作为解决方案。
对于这样的挑战,有关学者的反应也相当积极。他們認為,這種攻擊對於許多機械學習系統都是合理,因為這些系統通常會從類似的數據集訓練,而世界上的資訊量是有限制限。他們強調,即使技術進步,也應該保持適度使用,並讓人类参与决策过程,以避免潜在的问题发生。他們认为,无论如何,都要认识到完全预防滥用是不可能的事,因此应该同时投资于技术创新与监管工作,以确保公众利益得到了最大化保护。
最后,由于这些智能系统不断发展,我们必须继续关注它们带来的新挑战,同时也要考虑如何利用它们带来的好处。此外,我们应始终保持适度使用,并确保人类监督与参与,使得科技可以更加健康地融入我们的社会生活中。