学霸的科技树警惕ChatGPT危险发言AI聊天机器人还需修复ug漏洞
随着大模型技术的广泛应用,AI聊天机器人已成为社交互动、客户服务和教育辅助的常见工具。然而,不安全的AI聊天机器人可能被用于传播虚假信息、操纵甚至盗取用户隐私。网络犯罪生成式AI工具如WormGPT和FraudGPT的出现,对于AI应用安全性提出了担忧。
为了应对这一挑战,谷歌、微软、OpenAI和Anthropic共同成立了前沿模型论坛(Frontier Model Forum),旨在推进前沿AI系统的安全发展。这包括促进研究,加强最佳实践和标准制定,以及政策制定者与行业之间信息共享。
此外,ChatGPT等聊天机器人也可能会被诱导发布不当言论,如制造危险社交文章或窃取慈善机构资金。参与该研究的卡内基梅隆大学副教授Zico Kolter表示,“目前我们还无法修复这个问题,我们不知道如何确保它们的安全。”研究人员已经向OpenAI、谷歌和Anthropic发出警告,并引入了阻止措施,但仍需进一步改进以防范对抗性攻击。
OpenAI发言人Hannah Wong指出:“我们正在努力提高模型抵御对抗性攻击的能力,这包括识别异常活动模式并通过红队测试模拟潜在威胁。此外,我们正寻找一种普遍而灵活的方式来修复新发现的问题。”
谷歌发言人Elijah Lawal表示:“虽然这是LLMs普遍存在的问题,但我们在Bard中已经采取了重要防护措施,并将不断改进这些措施。” Anthropic临时政策与社会影响主管Michael Sellitto则认为:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。”
学界也关注这一问题,认为需要适度使用语言模型,并且人类参与及监督至关重要。麻省理工学院计算学院教授Armando Solar-Lezama指出,这些问题可能源自所有LLMs都基于类似的文本数据训练,而世界可用的数据是有限制定的。“任何重要决策都不应该完全由语言模型做出,从某种意义上说,这只是常识。”
因此,在开发并应用这些技术时,更好的策略是在提高安全性的同时,也要加强监管,以防止滥用。在保持创新与性能提升之余,我们必须始终牢记安全与伦理,为社会带来更多益处,同时规避潜在的问题。