ChatGPT 被起诉索赔 30 亿，「未经允许收集并泄露个人信息」，16 人匿名状告 OpenAI

一天吃两起官司，ChatGPT 现在有大麻烦了。

原因都和数据有关。

先是 16 人匿名起诉 OpenAI 及微软，认为他们在未经允许的情况下使用并泄露了个人隐私数据，索赔金额高达 30 亿美元。

紧接着，2 位全职作者提出，OpenAI 未经允许使用了他们的小说训练 ChatGPT，构成侵权。

而且两边的原告都表示，OpenAI 从互联网上搜刮的数据可太多了，除了他们以外还有非常多人的数据正在被违规使用。

网上的讨论很多，有人表示作家就是应该维权，并且获得适当的报酬。

但也有人认为，生成式 AI 学习互联网数据就像是学生去参观艺术作品一样，应该选择开放。

现在这两起诉讼都被递交到了加利福尼亚旧金山联邦法院。

被告方 OpenAI 暂时没有做出公开回应。

16 人索赔 30 亿

先来看第一起诉讼。

6 月 28 日，16 位匿名人士向 OpenAI 及微软发起诉讼，他们认为基于 ChatGPT 的 AI 产品在没有告知或获得本人同意的情况下，收集且泄露了他们的个人信息。

这种行为违反了 AI 模型数据相关的法律政策，而且没有付费。

他们从互联网、书籍、文章、网站和帖子中抓取了 3000 亿个单词，其中包括未经允许获取的个人信息。
这其中包含账户信息、姓名、联系方式、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天数据、cookie 等等。

这使得个人信息被嵌入到了他们的 AI 产品中，而这些信息可以反映出个人爱好、观点、工作履历甚至家庭照片等。

原告认为 OpenAI 没能充分将这些敏感信息进行过滤，会导致数百万人面临信息被泄露的风险。

而且他们指控如上抓取数据的行为，OpenAI 是“秘密进行”的，没有按照适用法律要求的那样注册为数据代理商。

负责这次起诉的律师事务所 Clarkson，此前曾负责过数据泄露和虚假广告等问题的大规模集体诉讼。

但能否胜诉目前还很不确定。

知识产权律师凯瑟琳・加德纳（Katherine Gardner）表示，当用户将内容上传到社交平台或者其他网站时，他们都会授予平台广泛许可，允许平台使用他们的内容。

因此，普通用户想要就 AI 模型的数据获取问题获得赔偿，具有比较高的挑战性。

以及有人发现在这份长达 157 页的诉讼书中，大量引用了媒体及学界在 AI 伦理道德方面的讨论和警告，但是对于造成实际影响的具体案例列举不多。

另一边，两位美国作家也在同一天起诉 OpenAI，认为他们的作品被拿去训练 ChatGPT。

具体的证据是，ChatGPT 能为他们的书生成“非常准确”的摘要，这足以说明这些书被收录在数据库中。

保罗・特朗布莱（Paul Tremblay）和莫娜・阿瓦德（Mona Awad）表示，ChatGPT 未经许可就从数千本书中拷贝数据，这侵犯了作者们的版权。

起诉书中预估，OpenAI 的训练数据中至少包含 30 万本书，其中很多来自侵权网站。

比如 OpenAI 在披露 GPT-3 训练数据情况时，就表示其中包含两个互联网图书语料库，大概占比为 15%。起诉作者认为这些数据就是来自影子图书馆网站的，比如 Library Genesis、Sci-Hub 等。

以及在 2018 年，OpenAI 透露他们给 GPT-1 喂的数据中包含 7000 + 本小说。起诉方认为这些书是研究人员从一些盗版网站上复制下来的，而没有获得作者的同意或授权。

目前 OpenAI 方面没有进行公开回应。

实际上，从生成式 AI 大火以来，AI 公司吃版权、数据隐私官司，也真的不稀奇了。

早在去年 11 月时，OpenAI 和 GitHub 一起推出的代码助手 Copilot，就被程序员们告上了法庭。

原告们认为 Copilot 侵犯了众多原创代码作者的版权，同时还泄露了用户隐私，因此向法院提起诉讼，索赔达 90 亿美元。

但到目前为止，这个案件还没有最终定论。

AI 画画那边，Stability AI、Midjourney 等也同样官司缠身。

因为发现只要输入自己的名字，就能生成个人风格的画作，画家凯利・麦柯南（Kelly McKernan）联合另外两位创作者一起提起诉讼。

律师团队和上面起诉 Copilot 的都是同一家。

以及网站平台方也不愿意被白嫖数据。

这不最近马斯克给推特限流，给出的理由就是“不想让 AI 白嫖数据了”。目前限制措施还在实行中，还不知道之后会有怎么样的变化。

Reddit 则表示自家平台上的数据非常有价值，所以推出了付费 API，价格并不低，这个操作导致不少第三方应用被迫关闭。

总之，AI 在网络上大规模抓取数据训练后，带来的隐私安全问题、版权问题层出不穷，被牵扯进来的人也越来越多。

但目前版权问题该怎么算，业内还没有形成确定的规范。

只有日本方面传出过消息，不会对训练 AI 所使用的数据实施版权保护，因为这能加速 AI 发展。

参考链接：

[1]https://www.theregister.com/2023/06/28/microsoft_openai_sued_privacy/
[2]https://www.reuters.com/legal/lawsuit-says-openai-violated-us-authors-copyrights-train-ai-chatbot-2023-06-29/
[3]https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。