谷歌 AI 正在吞食一切，爬取所有公开内容用于训练 AI，隐私政策已更新

从今往后，你在网上公开说的每一句话，都可能被谷歌拿去训练 AI！

没错，继画画之后，文字作品也要被用来喂大模型了 ——

无论是技术博客、代码、论文，还是所有你在网上公开的帖子，都可能被扔进“谷歌大模型搅拌机”，即使有版权也是如此。

就在这周，谷歌更新了一版隐私政策，明确表示他们保留有抓取网上所有公开内容，以构建其 AI 工具的权利。

网友们立刻炸了。有人警告“谷歌正抓取一切”：

一旦谷歌能够读取你写的东西，就意味着这些都是他们的“所有物”了。

还有网友抱持更悲观的想法：

很快啊，所有内容产出者就都会是 AI 了。

所以，这版隐私政策究竟是怎么回事？

用于训练 Bard 等 AI 产品

事情还得从谷歌这几天更新的隐私政策说起。

在最新的隐私权政策中，谷歌增加了一个关于“研究和开发”的 AI 模型条款：

Google 会利用信息来改进我们的服务并开发新的产品、功能和技术，以惠及我们的用户和公众。
例如，我们会利用公开信息来帮助训练 Google 的 AI 模型并打造实用产品和功能（比如 Google 翻译、Bard 和 Cloud AI 功能）。

换言之，就是将所有可能收集到的公开信息，用在谷歌翻译、Bard 和 Cloud AI 等 AI 相关产品或功能的训练中。

那么，这些公开信息具体包括什么？

例如互联网、网络和其他活动信息，包括搜索字词、应用和浏览器与谷歌服务进行互动的相关信息，以及在第三方网站和应用中使用谷歌服务等。

换而言之，不止是此前已经公开的博客等内容，包括公开到网上的谷歌文档、或是一些包含个人信息的发帖，也可能会被谷歌收集起来，用于大模型训练。

当然，目前这些内容都还限定在“公开信息”。

像谷歌提供的 Gmail 等电子邮件服务，应该还是不会被爬进数据里的。

而且谷歌也明确在隐私权政策中表示，在其他如防范安全威胁、信息审核、服务维护、个性化广告或法律等原因情况下，同样可以使用这些个人或公开信息。

不过，谷歌为啥在这个节骨眼更新这个政策？

或许也与 Reddit 和推特等一众公司搞出的“限流”操作有关。

先是今年 4 月，Reddit 宣布对接入 API 的公司开始收费。

公司 CEO 认为，Reddit 的数据库很有价值，但是他们不想将这些有价值的内容免费提供给科技大公司。

随后，推特也开始以“不想让 AI 公司白嫖数据”的理由，来给推特限流，未经验证用户日浏览量只有 600，经过验证后增加到 6000。

这一系列政策对用户和第三方工具影响很严重，例如 Reddit 引发了大规模的讨论版块抗议，不少版主直接关闭了自己管理的论坛，以对 Reddit 这一活动进行抗议，推特上也有不少人在声讨，甚至有网友表示“推特被杀死了”。

但无论如何，让 AI 白嫖数据这件事，现在都已经是一个无法忽视的矛盾了。

对于谷歌 AI 爬数据这件事，有网友表示疑惑：

为啥之前互联网如搜索引擎也有爬取数据一类的操作，但人们却偏偏对“AI 抓取”感到抗拒。

有网友回应称：

本质上还是版权的问题。如果只是引用受版权保护的材料，那么不一定侵犯版权，但如果用 AI 对有版权的内容进行“搅拌清洗”，而且这事儿合法化了，那么本质上版权已死。

也正是因此，他对于这件事感到悲观：

如果有人在不标注来源的情况下复制了你的博客，或是将你的开源代码拿去做付费服务，又或是将你在 StackOverflow 上的答案用作答题方法，你能接受这些情况发生吗？
我之前做的一切都是免费的。但现在如果 AI 想让我消失，那我就会消失。

当然，也有网友已经接受了这个政策的推出，警惕大家自身防范意识不可或缺：

细读新政策，注意我们泄露了多少信息到网上。

那么，你怎么看待这件事？

参考链接：

[1]https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486
[2]https://news.ycombinator.com/item?id=36577626

本文来自微信公众号：量子位（ID：QbitAI），作者：萧箫

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。