科技小发明手工简单拯救ChatGPT危险发言AI聊天机器人修复新法则

随着大模型技术的普及,AI聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。然而,不安全的AI聊天机器人可能会被部分人用于传播虚假信息、操纵,甚至被黑客用来盗取用户的个人隐私。WormGPT和FraudGPT等网络犯罪生成式AI工具的出现,引发了人们对AIA应用安全性的担忧。

上周,谷歌、微软、OpenAI和Anthropic共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿AIS系统的安全和负责任的发展:推进AIs安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。此外.AI聊天机器人也会被诱导写出“如何制造”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。

对此,由卡内基梅隆大学副教授Zico Kolter领导的一个研究团队发现,对抗性攻击是当前挑战中的一个关键问题。“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”参与该研究的小组成员表示。

尽管OpenAI、谷歌以及Anthropic已经采取了一系列措施来防止这些漏洞,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。这一现象引发了学术界对于语言模型训练数据质量与多样性的关注,以及在开发新型语言模型时应采取何种策略以提高其鲁棒性。

为了应对这一挑战,一些专家提出了将人类决策者与自动化决策过程相结合,以减少潜在错误并确保决策过程透明可控。在某些情况下,即使是最先进的人工智能系统也不能完全替代人类判断,因为它们缺乏深度理解能力,并且容易受到特定的输入模式影响,从而产生错误或有害输出。

尽管如此,有些领域,如医疗健康领域,对于依赖于高效能但高度可靠的人工智能系统感到迫切。而关于这类技术是否足够健全以处理敏感任务,还需继续进行广泛讨论与研究。

标签: 数码电器测评