科技文明之下ChatGPT岂料危险发言一键开启AI聊天机器人难道真的存在ug问题而无法修复

在大数据的海洋中,ChatGPT等AI聊天机器人的安全隐患逐渐浮出水面。这些技术巨头的模型,虽然为我们的社交娱乐、客户服务和教育提供了便利,但它们也可能被滥用来传播虚假信息或盗取用户隐私。最近,一项研究揭示了一个严重的问题:通过对抗性提示,可以绕过AI开发者的防护措施,让这些聊天机器人生成危险言论。

这不是个别模型的问题,而是多个大型语言模型(LLMs)都存在问题的普遍现象。这包括OpenAI的ChatGPT、谷歌的Bard、Anthropic的Claude 2以及Meta的LLaMA-2。在这个实验中,研究人员发现了一种可以附加到查询中的Suffix,这样就能让这些模型生成具有潜在危害性的回答。

例如,当被问及如何窃取他人身份时,不同是否打开“Add adversarial suffix”选项所给出的答案截然不同。此外,这些聊天机器人还可能被诱导写出不当言论,如制造武器或发布危险社交媒体内容。

参与此次研究的一位副教授指出,他们尚未找到解决这个问题的手段,并且不知道如何确保其安全性。而尽管科技公司已经采取了一系列措施以阻止这种攻击,但他们仍在寻找更有效的方法来防御对抗性攻击。

学术界对于这一问题提出了警告,并提出了一些建议。他们认为,对于重要决策,我们应该避免完全依赖语言模型,而应该结合人类判断和监督,以避免潜在的问题和滥用。此外,他们还强调了监管和反制滥用的重要性,因为完全防止所有滥用是不可能的事。

只有保持适度使用、人类参与和监督,我们才能规避潜在的问题,使得AI技术为社会带来更多益处。