互联网巨头，如何合法地「偷」你的数据训练 AI

极客公园
2024-07-06 14:42

苍蝇再小也是肉，聚沙成塔。

作者 | 芯芯

编辑 | 靖宇

你知道吗，自己的数据，现在已经开始合法地被互联网大厂们用作 AI 训练了。

在新一波的 AI 竞赛中，由于训练模型需要大量数据，当互联网的普通数据挖掘殆尽，平台上大量用户个人内容，便成了充满诱惑的矿藏。

一些硅谷的科技公司如此渴望新数据，开始偷偷摸摸把 AI 训练加入到数据使用政策中，赋予自己使用人们数据的权利。

在过去一年多里，包括谷歌、Meta、Adobe、Zoom 和 X 等大公司纷纷更新其服务条款或隐私政策，允许自己利用用户数据来训练生成式 AI 模型。

这些互联网大厂，都偷偷在「服务条款」里塞进了什么货？

01、硅谷巨头的「小动作」

随着科技巨头对数据的渴望越来越大，它们正在仔细重写其条款和条件，以包含「人工智能」、「机器学习」和「生成式人工智能」等词语。

为了避免用户对隐私问题的反感，公司有时悄悄地进行这些更改。在许多情况下，用户会在未阅读一字的情况下点击同意，毫无警觉地接受协议。

下面是硅谷大厂们在用户服务条款中各自「夹带私货」的细节：

谷歌

在 2022 年末，当 OpenAI 发布了 ChatGPT 并引发了全行业的追赶竞赛后，谷歌的研究人员和工程师开始讨论如何利用其他用户数据。数十亿字的内容存储在人们的 Google 文档和其他免费 Google 应用中，但是公司的隐私政策限制了他们如何使用这些数据。

当时，谷歌的隐私政策规定公司只能使用公开可用信息来「帮助训练谷歌的语言模型和构建像 Google 翻译这样的功能」。

去年 6 月，据纽约时报报道，谷歌的法律部门要求隐私团队起草语言，以扩展公司可以使用消费者数据的范围。

去年 7 月，谷歌对其隐私政策进行了修改，增加了公共信息可用于训练其 AI 聊天机器人和其他服务的内容。

谷歌将 Bard 和云端 AI 加入到用户条款中｜NYT

「我们使用公开可用的信息来帮助训练谷歌的 AI 模型，并构建诸如谷歌翻译、Bard 和云 AI 功能等产品和功能。」

为了安抚用户，谷歌声明称，其隐私政策的变更「只是澄清了像 Bard（现为 Gemini）这样的新服务也包括在内。我们并没有因为这种语言变化而开始在其他类型的数据上训练模型。」

谷歌的 AI 训练当然也有用最私人化的数据，如给朋友和家人的信息。谷歌发言人表示，在得到一小群用户许可的情况下，谷歌被允许在某些方面使用他们的个人电子邮件训练其人工智能。

X

X 在条款后方补了一句对于人工智能模型训练的事项｜NYT

马斯克一直在构建一个 AI 项目。去年 9 月，X 在其隐私政策中添加了一句话，关于机器学习和人工智能。

「我们使用收集到的信息来提供和运营 X 产品和服务。我们还使用收集到的信息来改进和个性化我们的产品和服务，以便您在 X 上获得更好的体验，包括向您展示更相关的内容和广告、建议您关注的人和主题、启用和帮助您发现关联公司、第三方应用和服务。我们可能会使用收集到的信息和公开可用的信息来帮助训练我们的机器学习或人工智能模型，以实现本政策中概述的目的。」

Snap

Snap 有些服务条款的变更只有几个字。另一些则新增了整段内容来解释生成式人工智能模型的工作原理，以及它们对用户数据的访问类型。

例如，今年，Snap 更新了其聊天机器人 My AI 的数据收集的隐私政策。Snap 提醒用户不要与其人工智能聊天机器人分享机密信息，因为这些信息将用于训练。

Snap 对于 My AI 聊天机器人的条款改动较多｜NYT

「My AI 是一个基于生成式 AI 技术构建的聊天机器人，设计理念确保安全。生成式 AI 是一种正在开发的技术，它可能会提供有偏见、不正确、有害或误导性的答案。所以，你不应该依赖它的建议。您也不应该分享任何机密或敏感信息 —— 如果您这样做，My AI 会使用它。」

「当您与 My AI 互动时，我们会使用您分享的内容和您的位置（如果您已启用 Snapchat 的位置共享）以改进 Snap 的产品，包括增强 My AI 的安全性，并个性化您的体验，包括广告。」

Zoom

Zoom 去年 7 月开始更新其服务条款，说明会将用户数据用于训练 AI，但遭遇用户和隐私提倡者的大量批评。在面临社交媒体上的强烈反对声音后，Zoom 去年 8 月又再次更新了服务条款，澄清未经同意不会使用视频、音频或聊天内容。

更新后的服务条款仍然要求用户「在此授予 Zoom 永久性、全球性的、非独占性的、免版税的、可转许可和可转让的许可及所有其他权利」使用客户内容。

这些权利包括「重新分发、发布、导入、访问、使用、存储、传输、审查、披露、保存、提取、修改、复制、共享、展示、复制、分发、翻译、转录、创作衍生作品和处理」客户内容。

条款不再具体提及 Zoom 有权就客户内容进行「AI 和 ML 训练」，而是更模糊地提到「服务开发、营销、分析、质量保证、机器学习、人工智能、培训、测试、服务、软件或 Zoom 其他产品、服务和软件的改进，或以上任何组合。」

Adobe

今年 6 月初，Adobe 因在其隐私政策中加入了一句关于自动化的短语，激怒了不少创作者，许多用户将其解读为与 AI 数据抓取有关。

「我们访问您的内容：我们可能会通过自动和手动方法访问、查看或聆听您的内容，但仅在有限的方式下，并且仅在法律允许的情况下。」

Adobe 公司的用户对于数据被拿来用 AI 训练比较敏感｜NYT

这些条款影响了 Adobe 创意云套件的超过 2000 万用户，一些用户认为这允许 Adobe 访问、查看他们的内容，包括受保密协议保护的作品。一些人认为 Adobe 正在监视他们的工作，吸收用户的艺术作品，并可能将其用于训练 AI 模型。

在用户强烈反对后，Adobe 更新了服务条款，明确表示不会使用客户作品训练 AI。

Adobe 通过博客文章澄清，这些变更是为了检测和删除非法内容，例如儿童色情材料（CSAM），以及滥用内容或行为，包括垃圾邮件和网络钓鱼。Adobe 不会使用存储在 Adobe 云上的文件来训练其 Firefly AI。

02、提前占好「免责」的坑

不过，巨头们的小动作，还是有监管在看着的。

美国联邦贸易委员会（FTC）长期以来一直盯着与公司隐私政策有关的欺骗性和不公平行为。过去曾起诉过那些以偷偷摸摸的方式更改隐私政策、破坏对消费者的现有承诺的公司。

今年 2 月，美国联邦贸易委员会警告科技公司，改变隐私政策以追溯性地抓取旧数据可能是不公平或欺骗性的，将追究「悄悄」更改隐私政策以挖掘用户数据用于 AI 的公司。

FTC 指出，公司可能会被诱惑从其用户群中挖掘现有数据以供 AI 模型使用，有「强大的商业动机」。FTC 称公司潜在的困境是利益冲突。「市场参与者应注意，任何背弃其用户隐私承诺的公司都可能触犯法律。」

不过，就在上周，微软 AI CEO Mustafa Suleyman 公开称互联网的公开内容可以被免费拿来训练 AI，如此直白的发言引起了强势的舆论反弹。

从硅谷巨头们在用户使用条款中的改动可以看出，各家确实都在利用产品优势，将用户数据用于 AI 训练之中。不过，具体哪些数据会拿来训练，哪些不能，行业内仍未达成一个共识 —— 一项技术出现的早期，肯定会出现这种规则缺乏的「狂野西部」的阶段。

而上述被动作手脚的使用条款，无疑是巨头们为之后免责提前占的坑。不出意外的话，国内一种大厂和 AI 公司，应该也已经在用户条款中修改、添加了 AI 训练的内容。

对于普通用户而言，对于长达数十页的用户使用条款，99% 都会直接无视。但是，如果这个产品，能通过有限的数据复制出一个「你」的时候，用户是不是该更谨慎一些？

本文来自微信公众号：极客公园（ID：geekpark），作者：芯芯

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。