近年来中国的科技成果警惕ChatGPT危险发言AI聊天机器人有ug尚无法修复

随着大模型技术的广泛应用,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的重要工具。然而,不安全的AI聊天机器人可能被用于传播虚假信息、操纵甚至盗取用户隐私。网络犯罪生成式AI工具如WormGPT和FraudGPT的出现,引发了对AI应用安全性的普遍关注。

最近,科技巨头谷歌、微软、OpenAI和Anthropic共同成立了一个行业机构前沿模型论坛(Frontier Model Forum),旨在推进前沿AI系统的安全发展:促进安全研究,加强最佳实践和标准制定,以及促进政策制定者与行业之间的信息共享。此外,研究人员还发现这些聊天机器人可能会被诱导产生不当言论,如制造危险社交文章或窃取慈善机构资金。

参与该研究的小米路大学副教授Zico Kolter指出,“据我们所知,这个问题目前还没有解决方案。”虽然OpenAI、谷歌和Anthropic已经采取措施防止这些漏洞,但他们尚未找到如何更有效地阻止对抗性攻击。每家公司都表示正在努力提高模型抵御对抗性攻击能力,并通过红队测试模拟潜在威胁。

学界也对这一问题提出了警告,并提出了一些建议。麻省理工学院计算学院教授Armando Solar-Lezama认为,对抗性攻击存在于语言模型中是有道理的,因为它们影响许多机器学习模型。他建议,我们应该认识到任何重要决策都不应完全由语言模型决定,而应结合人类参与和监督,以避免潜在的问题和滥用。

普林斯顿大学计算机科学教授Arvind Narayanan则认为,“让AI不落入恶意操作者手中已不太可能。”他主张尽管要尽力提高模型安全性,但也应认识到防止所有滥用是不太可能的,因此应当同时加强监管与开发以确保技术为社会带来益处而非害处。只有保持适度使用并加强人类参与与监督,我们才能规避潜在的问题,使得这项先进技术真正惠及社会。

标签: 数码电器测评