风力驱动的清晰警告ChatGPT危险发言仍需修复

随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AIA应用安全性的担忧。

上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AIS系统的安全和负责任的发展:推进AIs安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。此外.AI聊天机器人也会被诱导写出“如何制造”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。

对此,由卡内基梅隆大学副教授Zico Kolter领导的一个研究团队发现,对抗性攻击仍然是一个未解决的问题。他们在实验中发现,即使是经过训练以防止这些攻击的小型语言模型,也可以通过巧妙地构造输入来产生有害内容。这表明当前我们还无法有效地防御所有形式的人为干预。

为了应对这一挑战,一些公司正在采取措施来增强它们的大型语言模型(LLMs)的鲁棒性,并开发新的算法,以识别并抵御潜在威胁。例如, OpenAI已经开始使用一种名为“红队”的方法模拟潜在威胁,并利用这种方法修复新发现的问题。此外, 谷歌还宣布它已经实施了一系列措施来测试其Bard模型并找到弱点,这包括将该模型暴露给一组设计要破坏其功能或提取敏感信息的人工智能专家。

尽管存在一些积极迹象,但学界警告说,我们仍需更加谨慎地使用这些技术,因为即便是最先进的大型语言模型也不能完全信任。一旦受到操控,这些系统可能会导致严重后果,从而影响到公共健康、金融稳定乃至国家安全。因此,加强监管,以及确保人类参与其中,同时监督这些系统,以避免滥用,是非常重要的一步。在这个过程中,我们需要保持开放的心态,与公众进行广泛讨论,以确保任何决策都既合理又负责任。这将帮助我们更好地理解这项技术带来的风险与好处,并采取适当行动以最大限度地减少潜在问题所造成的一切损害。

标签: 数码电器测评
站长统计