科技创新筑梦未来揭秘ChatGPT危险发言与AI聊天机器人修复之谜

随着大模型技术的广泛应用，AI聊天机器人已成为社交互动、客户服务和教育辅助的常见工具。然而，不安全的AI聊天机器人可能被用于传播虚假信息、操纵甚至盗取用户隐私。网络犯罪生成式AI工具如WormGPT和FraudGPT的出现，对于AI应用安全性提出了担忧。

为了应对这一挑战，科技巨头如谷歌、微软、OpenAI和Anthropic联合成立了前沿模型论坛（Frontier Model Forum），旨在推进前沿AI系统的安全发展，包括促进安全研究，加强最佳实践与标准制定，以及提升政策制定者与行业之间的信息交流。

此外，研究人员还发现这些聊天机器人易受到诱导，以非法言论为例，如“制造危险社交文章”或“窃取慈善机构资金”。参与该研究的一位副教授指出，这一问题目前尚无可行之解，我们尚未找到确保其安全性的方法。

尽管各公司已采取措施防止此类漏洞，但如何更有效地防御对抗性攻击仍是个谜。OpenAI表示正在努力提高模型抵抗对抗性攻击能力，并通过红队测试模拟潜在威胁。此外，他们也在探索一种普遍而灵活的方式来修复新发现的问题。

Google则分享了一系列措施以测试其模型并寻找弱点，而Anthropic则致力于加强基本模型防护，使其更加“无害”，同时探索额外防御层。

学界也给予了警告，并提出建议。一位教授指出，对抗性攻击存在于语言模型中是合理，因为它们影响许多机器学习模型。他认为问题可能在于所有LLMs都基于相似的文本数据训练，而世界上的数据有限。

另一位教授认为，让AI不落入恶意操作手中已难以避免，因此我们应该认识到无法完全预防所有滥用，同时加强监管和反对策略。在开发和应用过程中，我们既要关注创新性能，也要牢记安全与伦理，以适度使用人类参与监督作为规避风险的手段，从而使得这些技术能够为社会带来益处。

标签：数码电器新闻资讯