侵权、抢功争议不断,Stability AI 陷入漩涡

侵权、“抢功”争议不断,Stability AI 陷入漩涡。图片来源 | Stability AI

无数创业产品和业余项目出现,谷歌、字节等巨头公司也都纷纷入局 —— 最近 AI 创作这条赛道有多拥挤,已经无需多言。

所有参赛选手当中,最火的一家莫过于 Stable Diffusion。该项目背后的公司之一 Stability AI,也成为了行业的当红炸子鸡。号称“要让 10 亿人用上开源大模型”的它,前不久刚刚完成了 1 亿美元融资,估值达到 10 亿美元跻身独角兽行列,

然而就在上周,Stable Diffusion 项目,以及这家风头正劲的公司,突然接连卷入两场争议:

不仅被艺术创作者“群起而攻之”,

还被合作伙伴“反水”,被质疑“抢功”……

/ 偷风格,算偷吗? / 

上周,美国媒体 CNN 采访了多位艺术家。这些受访者愤怒地表示:无法接受 Stable Diffusion 用他们的作品,却砸他们的饭碗。

这些艺术家的作品,或者更准确来说,他们在作品中所体现的风格,都被 Stable Diffusion 用于训练模型了。

受访者之一是在艺术界有一定知名度的油画家 Erin Hanson。她的油画作品用色风格非常独特,采用了更加多样化、具有视觉冲击力的色彩,且饱和度极高,已经在艺术圈内形成了个人特色。

前段时间 Stable Diffusion 爆红之后,Hanson 注意到有人用这个模型生成的一些图片结果,竟然有自己作品的味道。

经过进一步调查,她更加惊讶了:用户甚至可以在生成图片的时候,直接输入“Erin Hanson 风格”作为文字提示的一部分。Stable Diffusion 生成的结果,和 Hanson 已经发表的作品几乎一模一样……

如果不注意画中 Hanson 的签名水印的话,你可能完全会以为两张都是 Hanson 的亲笔创作:

图片来源:Erin Hanson(左)、Rachel Metz via Stable Diffusion(右)

但其实左边有签名水印的才是 Hanson 的正版作品 "Crystalline Maples";右边则是 CNN 记者通过 Stable Diffusion 生成的结果,使用的文字提示包括:水晶油画,光和影,背光的树,强烈轮廓,彩色玻璃,现代印象派,Erin Hanson 风格等。

“如果我把它挂在我的墙上,应该毫不违和吧?”Hanson 对 Stable Diffusion 的“创作能力”表示相当惊讶。

但在仔细研究了 Stable Diffusion 工作机制之后,她才明白过来:这个 AI 模型根本没有自己的创作能力。

因为它的风格,属实是“抄”来的。

Stable Diffusion 是一个具备文字转图片 / 视频能力的生成模型,可以用几秒钟时间就生成高分辨率、具备真实性和 / 或“艺术性”的视觉结果。在训练方面,这个模型的初代版本采用了大约 4000 台 A100 显卡集群,用了一个月的时间。

而它的训练数据,则来自于德国 AI 非营利机构 LAION(全称大规模人工智能开放网络)。初代版本所采用的的训练数据集,包括了近 60 亿条图片-文字平行数据。

很多和 Henson 一样感到愤怒的艺术家们发现,原来是自己的作品,以及对应的文字平行数据(比如姓名),被收录到了 LAION 相关数据集里 —— 才导致了自己的作品和风格,被这个爆红的 AI 创作模型所“剽窃”。

从网上大规模搜集资料作为 AI 模型的训练数据,早已不是什么新鲜事。事实上,今天我们正在使用的很多基于 AI 的技术和产品,包括并不限于搜索引擎、短视频推荐算法、翻译、图像识别等,背后的模型在训练阶段都重度使用了一些知名数据集。

这些数据集的内容,绝大多数是没有版权 / 使用目的限制的,无论最终是商业还是非商业目的,任何人都可以使用,只需要遵守相应的来源引用和使用规范即可。

一些比较常用的图片数据集举例   图片来源:Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples

不过,随着 AI 技术越来越先进,应用领域越来越多样,新的使用场景(比如今天讨论的 AI 文字生成图片)就对更大规模的训练数据集,更多来自公开网域的各种形式(文字、图片、音频、视频等)的信息和资料,产生了巨大的需求。

当数据集从几万,几十万张图片,“扩容”到几亿甚至几十亿张的规模时,这一过程当中,难免存在一些权利方面的漏洞。

而今天这些出离愤怒的艺术家们,就成为了权利漏洞,以及利用这些漏洞进行商业化获益行为的受害者。

他们的愤怒并非没有理由。

毕竟 AIGC(AI 生成内容)这一或将导致艺术家们失业的新技术领域,已经成为现如今科技创业的大热门,无数创业者、投资人疯狂涌入。结果夺走他们工作的这个玩意儿,居然正是用他们的创作风格所训练出来的。

本来艺术家们已经是一个普遍比较拮据的群体了。现在这些 AI 端了人家的碗,还要砸人家的锅 —— 你说他们能不生气么……

Erin Hanson 图片来源:本人

在艺术家和版权人士的呼吁和努力之下,现在已经有人开发出了一些工具,帮助权利人在大型数据集当中搜索自己主张权利的作品。

比如 LAION 自己做了一个网页工具可以把文字转换为 CLIP embedding,用于搜索描述相同或者相似的内容。

再比如还有一个取名很巧妙的网站,叫做“Have I Been Trained”,帮助创作者搜索 LAION 数据集,查看自己的作品是否被用于训练了。

图片来源:Have I Been Trained?

“Have I Been Trained” 的背后是一对居住在德国的艺术家和开发者,他们表示:在帮助艺术家确认自己的作品是否被大规模数据集收录之余,他们很快还将发布一套新的工具,允许艺术家能够自主选择作品是否被数据集所收录。为此,这两位开发者已经和多家从事大规模 AI 模型研发的机构和公司进行了接洽。

对于“艺术家应该掌握作品是否被收录控制权”这件事,Stability.AI 和 LAION 也表示同意。

然而即便如此,Stable Diffusion 也只是众多 AIGC 类模型的其中一个而已。还有更多模型 / 产品 / 项目处于未开源状态,艺术家和权利人想要正当维护自己的权益,所面临的挑战和阻碍,只会随着时间变得更多和更艰难。

直到这一问题在全行业通过规范或制度解决之前,Stable Diffusion,以及包括 DALL・E 2、Midjourney 等在内的主流模型,仍将作为“AI 侵权”指控的对象长期存在。

/ 多方心血,一家独占? / 

由于 Stability AI 这家公司在过去一直正面和侧面将自己宣传为 Stable Diffusion 项目幕后的功臣,像侵权这样的锅,也被该公司背上了。

然而侵权只是 Stability AI 当前面临的诸多烦恼之一。就在前不久该公司完成 1 亿美元融资,正式晋升为独角兽之际,它突然发现:

正因为揽了太多的功劳,过去一起做项目的好伙伴,对自己意见很大……

故事要先从上周四说起:一家名叫 Runway ML 的公司,在 Twitter 账号上表示发布了 Stable Diffusion 1.5 版本。

网友一下子懵了:

等一下,你们这是正式版吗?为啥 Stability AI 没有任何公开宣布或者支持呢?

图片来源:@ScottieFoxTTV

你们这个是 Stability AI 做的么?

图片来源:@buZztiaan

紧接着就在发布当天,发布网站 Hugging Face 透露,收到了来自 Stability AI 的删除请求:

Stability AI 表示 这个版本属于其“知识产权泄露”,并要求 Hugging Face 下架这一发布……

就连 Hugging Face 自己也懵了,因为这样的请求过去几乎从没有过。它在这个删除请求下面加了一行字:为了保证过程透明公开,请这个 repo 的所有者(Runway)和 Stability AI 提供更多资料……

图片来源:Hugging Face

这究竟是怎么一回事呢?

首先我们需要再回顾一下 Stable Diffusion 的来历:

需要明确的是,Stable Diffusion 的技术本身,其实来自于慕尼黑大学机器视觉学习组,和 Runway 公司。

今年的 CVPR22 大会上,这些研究者共同发表了一篇论文,研究的是潜伏扩散模型,论文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是这篇论文里的研究,在后来成为了 Stable Diffusion 模型的理论技术基础。

图片来源:Rombach 等人

从论文署名可以看到,除了 Esser 是 Runway 旗下研究部门的首席研究科学家之外,其他作者的隶属单位均为慕尼黑大学 —— 也就是说,至少在论文发表的时候所有作者当中,没有一人属于 Stability AI。

可要是这样的话,Stability AI 又是怎么跟这事儿攀上关系的呢?

Runway 公司的 CEO Cristóbal Valenzuela 透露了真相:

1)基础版本的技术,或者说论文,是慕尼黑大学和 Runway 一起搞的;

2)Stable Diffusion,也就是对基础版本进行重新训练后得到发布的正式版本,仍然是 Esser 和 Rombach(论文的两位主要作者)二人主要开发的;

3)这个模型早在去年就正式开源了

4)Stability AI 在整个过程中做出的贡献仅限于:为正式版本的训练提供算力。

图片来源:cvalenzuila / Hugging Face

而结合行业流传的比较靠谱的消息,以及 Stability AI 创始人兼 CEO Emad Mostaque 的表述,我们了解的情况是:

所谓的算力,就是 Mostaque 个人出钱买了四千张 A100 显卡……

图片来源:英伟达

以及,对于 Stable Diffusion 重新训练所依赖的数据集 LAION-5B,Stability AI 也是这一其组织创建工作的出资人之一。

不管怎么样,总的来说,包括 Runway、Stability AI、慕尼黑大学等在内的几家参与方,大家在 Stable Diffusion 的发布工作中的贡献都是平等的。最一开始并不存在,也不应该存在一家独大的情况……

但是比较遗憾的是,在后续围绕整个 Stable Diffusion 项目的营销、宣传,以及运营工作当中,Stability AI 以及创始人 Mostaque,或多或少地突出甚至夸大了自己一方的贡献和价值 —— 对行业内外的用户,以及媒体和公众,都造成了不实的印象。

硅星人原文截图   图片来源:硅星人

事实上,Stability AI 这家公司,自己也在开源的 Stable Diffusion 基础之上,开发了一个自己的网页端应用 DreamStudio Lite—— 从这一维度,和其它也做了类似事情的公司和团队相比,Stability AI 跟它们并无实质区别。

在 Valenzuila 站出来“硬刚” Stability AI 之后,底下的留言也基本一边倒向了 Runway 这边……

网友纷纷表扬这位 CEO 是“gigachad”(超级猛男)

很快,Stability AI 也撤回了删除请求。

但该公司并没有“示弱”。公司新任首席信息官 Dan Jeffries 暗戳戳地写了一篇文章,指责被合作伙伴“抢跑” 1.5 版本的做法非常不负责任。同时他又扔出了一套十分夸张的说法,大意是:

“我们不发 1.5 版本,是因为我们收到了监管部门和公众的意见,认为我们的模型不安全,会伤害到别人。所以我们接下来的主要任务是搞好安全。”

Dan Jeffries  文章标题  截图来源:本人

这里的“安全问题”主要指的是模型被用于制作 NSFW 内容、Deepfake 等。而 Hugging Face 上讨论此事网友对这篇文章表示:装什么大尾巴狼呢?前几个版本都有问题怎么你们照发不误呢?如果真要打击 NSFW 的话,那是不是 Photoshop 和视频制作软件都别发新版本了?

在 Hugging Face 的帖子被关闭之前,仍然有极少数人站在 Stability AI 这边,大意是说 Runway 这个做法不体面,一个真正“稳定”的版本应该大家一起商量发布,更何况 Stable Diffusion 这个命名,本身就印证着它跟 Stability AI 有巨大的关系。

然而现在来看,Stability AI 和 Stable Diffusion 这两个名字,谁蹭谁的热度还不好说呢。

本文来自微信公众号:硅星人 (ID:guixingren123),作者:光谱 杜晨,编辑:VickyXiao

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享