探析安全性问题：揭示针对语言模型（LLM）的聊天机器人和私隐政策所采取的方式

发布时间：2023-10-26 10:00:51 所属栏目：安全来源：

导读：几个月以前，当ChatGPT以及其他利用类似人类语言的模型创建出来的聊天机器人被推出时，它们显得相当新鲜有趣。普通用户喜欢用它们以著名艺术家的风格创作诗歌和歌词；研究人员激烈讨论着要炸毁数据中心，以防止超级人

几个月以前，当ChatGPT以及其他利用类似人类语言的模型创建出来的聊天机器人被推出时，它们显得相当新鲜有趣。普通用户喜欢用它们以著名艺术家的风格创作诗歌和歌词；研究人员激烈讨论着要炸毁数据中心，以防止超级人工智能发动世界末日；而安全专家则成功绕过聊天机器人的安全控制机制，给它们发布窃听电话和劫车的指令。

研究数据证实了聊天机器人被积极用于工作目的这一事实。卡巴斯基对俄罗斯人进行的一项调查显示，11%的受访者使用过聊天机器人，近30%的人认为聊天机器人将在未来取代许多工作。研究人员进行的另外两项调查显示，比利时有50%的上班族使用ChatGPT，英国有65%。其中，在英国，58%的人使用聊天机器人来节省时间（例如，撰写会议纪要，提取文本的主要思想等），56%的人使用聊天机器人来撰写新文本，改进风格/语法以及翻译，35%的人使用聊天机器人来进行分析（例如，研究趋势）。使用ChatGPT的程序员占16%。

潜在的隐私威胁
大多数基于LLM的聊天机器人（ChatGPT、微软必应聊天、谷歌Bard、Anthropic Claude等）都是基于云的服务。用户创建一个帐户并获得访问bot的权限。神经网络是一个巨大的资源密集型系统，运行在提供商一端，这意味着服务所有者可以访问用户与聊天机器人的对话。此外，许多服务允许用户在服务器上保存聊天历史记录，以便稍后返回。

考虑到用户与聊天机器人共享的数据的敏感性，有必要调查一下这样做的风险有多大。在LLM的情况下，传递给机器人的信息可能会被泄露的场景包括以下几种：

提供商方面的数据泄露或黑客攻击。虽然基于LLM的聊天机器人由科技巨头运营，但它们也不能幸免于黑客攻击或意外泄露。例如，曾经发生过这样的事件，导致ChatGPT用户能够看到其他人聊天历史记录中的消息。

通过聊天机器人泄露数据。从理论上讲，用户-聊天机器人的对话以后可以进入用于训练模型未来版本的数据语料库。考虑到LLM容易出现所谓的“意外记忆”（unintended memorization），最终出现在训练语料库中的数据可能会被其他用户意外或有意地从模型中提取出来。

数据隐私问题备受企业关注。据媒体报道，今年5月，三星公司禁止其员工使用ChatGPT。据调查数据显示，在英国，大约1%的用户在工作中被完全禁止使用ChatGPT，而三分之二的公司已经出台了某种关于使用生成式人工智能的工作场所政策，尽管24%的受访者认为政策不够明确或全面。为了彻底保护企业业务免受隐私威胁，同时不放弃聊天机器人作为工具，组织必须首先分析与每个单独服务相关的风险。

使用任何在线服务都有一个非常简单但经常被忽视的规则：在注册之前，一定要阅读或至少浏览一下隐私政策。通常，在真实服务的情况下，该文档不仅描述了收集的数据以及如何使用这些数据，而且还清楚地阐明了与收集的数据相关的用户权利。在决定将数据委托给该服务之前，有必要了解这一点。

1.用户端：双因素身份验证和聊天记录
在任何在线服务中，基本的帐户保护措施之一就是双因素身份验证（2FA）。虽然在大多数情况下，第一个因素是密码，但第二个因素可能是通过文本/邮件发送的一次性代码，也可能是由特殊应用程序生成的；也可以是更复杂的东西，比如硬件安全密钥。2FA的可用性及其实现是供应商对用户数据安全性关心程度的重要指标。

Bing Chat和Google Bard都要求用户分别使用微软或谷歌的账户登录。因此，与用户端的聊天机器人对话的安全性取决于用户各自的帐户受到多少保护。两家科技巨头都提供了所有必要的工具来保护用户自己的账户免受黑客攻击：2FA有各种选项（应用程序生成的代码，通过文本，等等）；查看活动历史记录和管理连接到该帐户的设备的能力。

Google Bard将用户的聊天记录保存在其账户中，但允许用户自定义和删除它，还有一个帮助页面，说明如何做到这一点。Bing Chat也会保存用户的聊天记录，不过，微软社区论坛有一个关于如何自定义和删除它的帖子。

Alloy Studios的Genius不需要登录，但用户只能在订阅时使用苹果ID的设备上访问其聊天记录。因此，用户与聊天机器人的对话就像其苹果ID一样受到保护。Genius还提供了直接在应用程序界面中删除任何提示的选项。

OpenAI的ChatGPT让用户可以选择保存他们的聊天记录并允许模型从中学习，或者不保存并不允许。两者存在于一个单一的设置中，所以如果用户想保存聊天的灵活性，但又不想数据被用于训练模型，通常是做不到的。至于ChatGPT中的2FA，当研究人员开始研究时，它在设置中可用，但由于某种原因，该选项后来消失了。

要登录You.com，用户需要提供一个电邮地址，然后一个一次性代码将被发送到该地址。Anthropic也有相同的系统。在这些服务中没有其他身份验证因素，所以如果用户的邮件被黑客入侵，攻击者可以很容易地访问其帐户。此外，You.com会保存用户的聊天记录，但有一些主要的附带条件。用户可以在聊天机器人界面中启用“隐私模式”。Claude同样会保存用户的聊天记录。想要了解如何删除它，可以访问支持网站。

2.提供商端：根据提示和聊天机器人的响应训练模型
使用聊天机器人的一个主要风险是个人数据泄露到机器人的训练语料库中。想象一下，例如，您需要评估一个新产品的想法。您决定使用聊天机器人，您可以将想法的完整描述作为输入，以获得尽可能准确的评估。如果系统使用提示进行微调，您的想法就会出现在训练语料库中，而对类似主题感兴趣的其他人可能会得到您产品的全部或部分描述作为回应。即使服务在将数据添加到语料库之前将其匿名化，这也不能完全防止泄漏，因为输入文本本身具有知识价值。这就是为什么在使用任何聊天机器人之前，弄清楚它是否从您的提示中学习以及如何停止它是值得的。

负责任的聊天机器人开发人员在其隐私政策中详细说明了用于模型训练的数据的使用。例如，OpenAI使用用户提供的内容来改进其服务，但会给用户提供“退出”选项。

如上所述，我们可能会使用您提供给我们的内容来改进我们的服务，例如训练ChatGPT的模型。

请注意，在设置中禁止使用数据之前，所有与机器人的对话都将用于后续的模型微调。

“您可以在ChatGPT设置（在数据控制选项下）中关闭训练功能，以关闭在禁用训练时创建的任何对话用于训练目的。一旦您选择退出，新的对话将不会被用来训练我们的模型。”

OpenAI对企业和API用户有不同的规则。这里是另一种方式：在用户授予许可之前，用户提供的数据不会用于模型训练。

“我们不会使用您的ChatGPT企业版或API数据、输入和输出来训练我们的模型。”

Bing Chat和Bing Chat企业版采用了类似的方法来处理用户数据。这份名为《新Bing：我们负责任的人工智能》（The new Bing: Our approach to Responsible AI）的文件指出：

“微软还为用户提供了强大的工具来行使它们对个人数据的权利。对于Bing收集的数据，包括通过用户查询和提示收集的数据，Microsoft隐私仪表板为经过身份验证（登录）的用户提供了行使其数据主体权利的工具，包括为用户提供查看、导出和删除存储的对话历史记录的能力。”

所以，Bing Chat收集并分析用户的提示。关于数据使用，文件如下：

“有关Bing收集的个人数据、使用方式以及存储和删除方式的更多信息，请参阅微软隐私声明。”

在这份声明中可以找到一系列数据收集目的，其中之一是“改进和开发我们的产品”，在聊天机器人的情况下，这可以解释为模型训练。

至于Bing Chat企业版，“隐私和保护”部分是这样表示：

“由于Microsoft不保留提示和响应，因此它们不能用作底层大型语言模型的训练集的一部分。”

另一个IT巨头Google Bard的聊天机器人也收集用户提示来改进现有模型并训练新模型。Bard隐私声明明确指出：

“Google收集您的Bard对话、相关产品使用信息、您的位置信息以及您的反馈。根据我们的隐私政策，谷歌使用这些数据来提供、改进和开发谷歌产品和服务以及机器学习技术，包括谷歌的企业产品，如谷歌云。”

Claude（Anthropic）聊天机器人是另一个收集用户数据但匿名化处理的机器人。在隐私和法律页面的“您如何在模型训练中使用个人数据？”，回答是：

“我们使用来自三个来源的数据来训练我们的模型……来源3. 我们的用户或工作人员提供的数据。”

“为了帮助我们了解您如何使用我们的服务并帮助我们改进服务，我们会自动接收有关您与我们的服务交互的信息，例如您查看的页面或其他内容，以及您访问的日期和时间。如上所述，隐私模式与此有很大不同。”

同样地，Alloy Studios的Genius也未能直接回答是否收集并使用提示来训练模型的问题。隐私政策只采用了通用表述，没有与研究相关的具体内容：

这样的措辞可能表明该服务收集了聊天机器人的提示，但没有确凿的证据。关于上述信息的使用，该公司的隐私政策规定如下：

“我们使用收集的信息来反馈给我们的服务，回应查询，个性化和改进我们的服务以及您在使用我们服务时的体验。”

综上所述，正如我们所看到的，业务解决方案通常是相对安全的。在B2B领域，安全和隐私要求更高，企业信息泄露的风险也更高。因此，与B2C部分相比，数据使用、收集、存储和处理条款和条件更倾向于保护。本研究中的B2B解决方案默认情况下不保存聊天历史记录，并且在某些情况下，根本不会向提供服务的公司的服务器发送任何提示，因为聊天机器人部署在客户的本地网络中。

用户对个人数据的权利
研究人员还研究了用户可以使用哪些工具进行自我保护，可以使用聊天历史记录做些什么，以及LLM开发人员是否真的根据用户数据训练他们的模型。现在让我们先来弄清楚用户对其提供给聊天机器人的信息拥有哪些权利。

GDPR的核心要求之一是，有关用户权利的信息应以简洁、透明、易懂和易于访问的形式提供。必要权利清单包括更正、删除和获取收集的个人数据副本的权利，以及选择不处理个人数据的权利。当用户不再需要某个服务时，删除权特别有用。

结语
该研究揭露了在工作中使用基于LLM的聊天机器人所带来的主要威胁，并发现当员工在工作中使用个人账户时，敏感数据泄露的风险最高。

理想情况下，如果组织看到允许员工使用聊天机器人的好处，它应该使用具有明确数据存储机制和集中管理选项的业务解决方案。如果组织将聊天机器人的使用和帐户安全完全托付给员工自己，那么由于隐私政策和帐户安全级别的巨大差异，组织很可能将面临数据泄露的风险。为了防止员工出于工作目的自行咨询不受信任的聊天机器人，建议组织使用带有云服务分析的安全解决方案。通过这种方式，可以确保员工不会被黑客攻击，从而保护他们的个人隐私。同时，还可以帮助企业降低成本，提高效率。

（编辑：驾考网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!