科技公司警告ChatGPT的危险发言可能无法修复AI聊天机器人中的ug问题仍待解决
随着大模型技术的广泛应用,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的重要工具之一。然而,不安全的AI聊天机器人可能被用于传播虚假信息、操纵甚至盗取用户隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现引发了对AI应用安全性的普遍关注。
最近,科技巨头如谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),旨在推进前沿AI系统的安全与负责任发展。该论坛致力于进行安全研究,确定最佳实践和标准,并促进政策制定者与行业之间的信息共享。此外,该论坛还会探讨如何防止不当言论,如“制造危险社交文章”或“窃取慈善机构资金”的指南。
参与该研究的卡内基梅隆大学副教授Zico Kolter表示:“目前,我们尚未找到解决这个问题的手段。”他警告说,这个漏洞可能导致对抗性攻击,使得即使是最先进的人工智能也无法有效应对这种威胁。
尽管OpenAI、谷歌和Anthropic已经采取了一些措施来防御这些攻击,但他们仍在寻找更有效的手段来阻止它们。此外,他们正在通过红队测试模拟潜在威胁,并利用一种灵活而普遍适用的方法来修复新发现的问题。这一努力旨在提高模型抵抗对抗性攻击能力,从而减少其遭受恶意操作者的风险。
学界也提出了警告,并提供了一些建议。麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模型中是有道理,因为它影响了许多机器学习模型。他认为,这种问题可能源于所有LLMs都基于有限且相似的数据集进行训练,其中包含大量来自同一网站上的数据。
Solar-Lezama强调,在涉及重要决策或高风险场景时,应该限制依赖语言模型,而是需要人类参与并监督,以避免潜在的问题和滥用。他建议采取更加谨慎的态度,即使是在使用具有高度创新性能的人工智能时,也要确保其不会被滥用以产生负面后果。
普林斯顿大学计算机科学教授Arvind Narayanan则表示:“让AI不落入恶意操作者手中已是不太可能的事情。”他认为虽然应该尽力提高模型安全性,但完全防止滥用是一个挑战,因此必须加强监管以及开发出能够抵御各种威胁的人工智能技术。
总之,无论我们是否乐观,都应当认识到,在开发和应用人工智能时,我们必须始终牢记到安全与伦理。在保持适度使用、人类参与与监督的情况下,我们才能规避潜在的问题并最大化人工智能带来的益处,为社会创造价值。