根据一项关于 AI 安全的研究，已经表明现有的保护措施并没有发挥其作用

发布时间：2023-10-26 09:46:06 所属栏目：安全来源：

导读：已经证实，“拦阻”机制的脆弱性在于它无法有效地阻止 OpenAI 的 GPT-3.5 Turbo 等大型语言模型（LLM）的不良内容创作。

一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机

已经证实，“拦阻”机制的脆弱性在于它无法有效地阻止 OpenAI 的 GPT-3.5 Turbo 等大型语言模型（LLM）的不良内容创作。

一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的计算机科学家在近期对这些大语言模型进行了测试，观察所谓的安全措施是否能抵御企图绕过它们的活动。

这些研究人员包括Xiangyu Qi、Yi Zeng、Tinghao Xie、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson，他们在最近的一篇预印本论文中描述了研究工作，论文题目为《微调对齐的语言模型会危害安全，即使用户没有这个意图》

OpenAI虽然不对外提供模型权重，但通过其平台网页为其商业模型提供了微调选项。

研究人员补充道，他们的研究还表明，即使没有恶意，护栏也可以被推倒，只需使用良性数据集对模型进行微调就足以破坏安全控制措施。

此外，他们表示，基于商业API的模型似乎与开放的模型一样有可能造成危害；在制定法律规定和分配责任时应该考虑到这一点。

他们在论文中说：“如果客户定制像ChatGPT3.5这样的模型，就有必要确保他们致力于安全机制，而不是仅仅依赖模型的原始安全性。”

这篇论文与卡内基•梅隆大学、人工智能安全中心和博世人工智能中心的计算机科学家在7月份发布的类似发现结果相一致。

卡内基•梅隆大学计算机科学副教授Kolter和卡内基•梅隆大学博士生Zou在接受外媒的采访时对来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的同行们所做的研究工作表示了赞赏。

Kolter认为：“过去有一种观念认为，聊天机器人的商业API模型在某种程度上天生比开源模型来得安全。”

他说：“如果你只使用安全数据训练模型，你就再也不能把它用作内容审核过滤器，因为它不知道如何量化有害内容。有一点非常清楚，那就是模型似乎确实表明需要更多的缓解技术，以及需要对哪些缓解技术在实践中实际发挥作用开展更进一步的研究。”

被问及开发针对有问题的查询，作出“对不起，Dave，我不能那样做”回答的软件这种做法是否可取时，Kolter表示这是超出他专业知识范畴的问题，我们还没有看到这种先发制人的行为被内置到汽车或物理工具中。不过他承认，就大语言模型而言，由于这些人工智能模型可以大规模运行，安全不容忽视。”

Zou表示，尽管他和合作者在对抗性提示方面有所发现，尽管Qi等人在微调方面有所发现，但他依然相信商业模型开发商有一条出路。在过去的几年中，这一领域的研究人员一直在努力寻找解决方案，以便能够更好地理解人类行为的机制。

（编辑：驾考网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!