丨IT资讯

.hd-box .hd-fr

Copilot 要摊官司了，工作 20 年老程序员重新激活律师证，发起集体诉讼，还喊网友加入

2022-10-22 19:48量子位(丰色、Alex)49评

距离正式发布才刚 4 个月，GitHub Copilot即将迎来一场集体诉讼！

发起人是一位干了 20 多年的程序员，来自美国的马修・巴特里克（Matthew Butterick）。

他早在今年 6 月就“捶”了 Copilot 的开源许可证问题。

现在，马修终于决定迈出实质性的一步，在迅速激活自己的律师资格证后，和其他几位律师一起合作“声讨”Copilot。

（这位老哥身兼数职，除了这俩身份还是设计师）

他在一篇专门的个人博客中细究了 Copilot 涉及的两大法律问题，并指出 Copilot不仅是“偷代码”那么简单，还会对整个开源社区造成诸多不良影响：

或许你不介意它未经许可就用了你的开源代码，但如果它也将由此抹去你和开源社区之间的联结呢？

（若不明白这句话具体何义，请接着往下看~）

目前，这篇博客已在推特上得到了不少关注和转发。

相关消息还引爆了 Hacker News 社区。

Copilot 有哪些问题？

先给不熟悉的朋友简单介绍一下 Copilot。

它是内嵌在 Visual Studio 等 IDE 中的一个代码自动补全工具，支持多种主流编程语言。

根据已写的内容，它可以给出后续代码建议 —— 不过和我们见到的普通自动补全功能不同，它可以生成诸如整个函数体这样的大段代码。

今年 6 月，Copilot 在经过一年的免费试用后正式转为付费工具，定价为 10 美元 / 月（人民币约 67 元），年付则是 100 美元 / 年（人民币约 669 元）。

它的到来，让很多人都感叹入门级别的程序员没有用了。

不过问题也随之而来。

Copilot 强大的编码能力来自于一个叫做 Codex 的 AI，由 OpenAI 开发并授权给微软。

Codex 是怎么训练的呢？

尽管微软含糊其辞，表示它的训练源是数亿行公共代码；但 Copilot 的研究员还是道出了实情，都是出自于 Github 上的公共仓库。

好了，马修要状告 Copilot 的第一个问题，也就跟 Copilot 的训练过程有关。

马修表示，微软和 OpenAI 要想用 Github 上的开源仓库进行训练，要么遵守它们的开源许可证协议，要么「合理使用」。

如果是前者，微软和 OpenAI 应该至少发布大量的 attribution 来获得许可，但是大家没有看到。

他们将自己归到了后者，如 GitHub 前 CEO Nat Friedman 在 Copilot 的技术预览会所说：

在公开数据上训练（机器学习）系统属于合理使用。

不过，软件自由保护组织（Software Freedom Conservancy，SFC）不同意这一“空口无凭”的说辞，要求他们提供法律依据来支撑自己的立场。

但是迟迟没有得到答案。

马修表示，这就是因为微软和 OpenAI 给不出来啊。

第二个可能违法的问题，则是关于 Copilot 的使用。

马修指出，微软在面对 Copilot 用户时对自己进行了免责。

微软将 Copilot 给的代码称为“建议”，称自己不从中主张任何权力，也不对它生成的代码作任何关于正确性、安全性和产权相关的保证。

一旦你接受了 Copilot 给出的“建议”，如果出了问题都由你自己负责。

乍一听还好，可是不止一人发现 Copilot 一字不差地把原作者的代码当成“建议”丢给用户，连注释都一并奉送的那种。

这要是直接采纳可就要涉及许可问题了，可是 Copilot 根本不会注明这些代码的来源，又该让用户如何遵守协议呢？

以上，便是马修要控诉的两大问题。

除此之外，他还表达了对开源社区文化的担忧。

他认为，Copilot 的所作所为直接在程序员和开源社区之间砌起了一堵墙，让程序员只管任意享用现成代码，远离源代码本身，失去与源项目的问题讨论、bug 跟踪等互动和贡献。

而这对开源社区将是一个永久的、痛苦的损失。

另一边，对于“无故”奉献了训练代码的开源作者来说，他们俨然被当作了资源的生产者。

马修将这类人比喻成奶牛，由于 Copilot 对他们的项目没有任何贡献，他表示这奶牛是只出奶却不被提供食物和住所的奶牛。

因此，他也将 Copilot 的本质，比喻为寄生虫。

此外，你可能听闻有人出于愤怒将自己的代码搬出了 GitHub。

马修告诉大家：其实微软通过声称训练 AI 是合理使用，正在搜索网上任何可以使用的公共代码进行训练。

可以说是“逃无可逃”。

于是在避免伤害变得无法弥补之前，马修声称必须弄清 Copilot 的合法性。

他呼吁以下几类人群加入他们的调查和诉讼队列：

当然在博客最后，马修还是特别声明：

我本身并不反对 AI 辅助编程工具。

他提到，Copilot 本可以也很容易变得“友好”，比如让作者自愿参与，或者有偿征用。

质疑声从未停止

这次，看到有人带头牵起对 Copilot 的集体诉讼，许多程序员以及计算机相关领域的大佬们纷纷表示：

“附议！”

消息出来之后，德克萨斯 A&M 大学的一位计算机科学教授，并兼任 ACM、IEEE 和 SIAM 会员的 Tim Davis 顺势发推分享了自己的“遭遇”：

Copilot 没有拿到 LGPL 许可证（函数库公共许可证），就擅自发出了大段我的版权代码。

并附上了证据：

△ 左为 Copilot 给出的代码，右为他自己的代码

有网友表示：

Copilot 的这种行为属于是完全不尊重开源社区。

还有网友犀利地指出，在模型训练过程中，所谓的 AI“学习”，本身就是一种被勉强挪用过来的概念：

因为据现有法律，人类阅览受版权保护的资料用于自己学习，是合法的；然后各大科技公司说，AI 也会“学习”，所以 AI 也没有违反版权法。

但是 AI 并不像人类那样自主（尽管很多公司称 AI 很自主），这些模型其实都被背后的组织或公司等操控着，所以用“学习”来描述 AI 做的事并不太准确。

而且真人其实也经常出现会违反版权法等问题……

所以，要定义 AI 在“学习”过程中到底是否“抄袭”了，以及存在具体哪种侵权行为，是一个非常棘手的问题，还需要更多的讨论和明确规定。

诚然，Copilot 从去年的内测阶段起，其出色的编程能力确实惊艳了不少人。

而且这个 AI 后来还学会了“反向输出”：

用“人话”来讲解某一段代码有什么用，帮助屏幕前的人看懂代码。

但另一方面，不只现在，其实从 Copilot 刚出来开始，一直就有众多质疑和反对的声音，核心都不外乎马修在前文举证的那两点。（即这个 AI 的训练和使用）

也正如前文所说，除了个人，还有 SFC 等组织也在声讨 Copilot。

而在今年 6 月份，GitHub 宣布 Copilot 结束内测，开启收费模式后，更是将大家的不满情绪拔到了最高点。

除了免费引流再收费的商业模式让人反感外，大家一致认为这的 AI 用开发者写的代码来训练，不应该回过头向再开发者收费：

每一个曾向 GitHub 提交过代码的人都应免费使用！

于是，Copilot 正式版立刻遭到了抵制 ——

SFC 不仅自己要退出 GitHub，而且还号召其他软件开发商同样照做。

在 VS Code 插件市场上，Copilot 原本一直是 5 星好评，也一下子涌入了不少一星差评。

One More Thing

本次事件还让人把目光延伸到了 AI 绘画领域，有网友认为：

这种工具同样也涉及侵权等问题。

最后，对于“大伙儿现在联合把 Copilot 告上法庭”这件事，你觉得赢的胜算大吗？

参考链接：

[1]https://githubcopilotinvestigation.com/
[2]https://twitter.com/DocSparse/status/1581461734665367554
[3]https://news.ycombinator.com/item?id=33240341

本文来自微信公众号：量子位（ID：QbitAI），作者：丰色、Alex

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

GitHub

微软“砍刀部”动手了，GitHub 即将下线 Trending 趋势功能

微软员工在 GitHub 上意外泄露内部敏感登录凭据

微软 AI 编程工具 Copilot 转付费引争议，开源组织号召退出 GitHub

大家都在买广告

热门评论

查看更多评论