博士意外发现秘密:DALL-E 2 自创语言,人看不懂但能生成特定图像,可能会被用来搞事!

DALL・E 2,这个 AI 竟然自己搞了一套秘密语言。

例如这两个非常奇怪的词组:

  • Apoploe vesrreaitais(下文简称 A)

  • Contarra ccetnxniams luryca tanniounons(下文简称 C)

(翻译软件都会崩溃,可以去试试)

但到了 DALL・E 2 这里,画风却截然不同。在它看来,A 就是“鸟类”的意思,而 C 则是“害虫”之意。于是乎,如果给 DALL・E 2 喂上一句:A eat C,那么它的打开方式就会这样:

清一色产出的图片,都是鸟吃害虫相关。

而且你要是跟 DALL・E 2 说,生成“两只鲸鱼讨论食物,带字幕”,结果会是这样:

图里的“Wa ch zod rea”,在 DALL・E 2 的词库里竟然是“食物”的意思!此事一经曝光,瞬间引发了众多网友的热议。

甚至还有人提出,有了这些秘密语言,可以绕开 DALL・E 2 的“违禁词过滤器”,从而生成一些有争议的图像了。(搞事情!)

所以,关于 DALL・E 2 的秘密咒语,到底是怎么一回事?

一次意外的发现

发现这个问题的是国外一名计算机专业的博士生。

他注意到 DALL-E 2 模型在遇到需要给出带文字的图像时,总是会出现一些奇怪的单词。比如输入这句:“两个农民谈论蔬菜,带字幕(Two farmers talking about vegetables, with subtitles)”,就出来这样一张图像:

像是挺像的,不过这字幕写的啥啊,不是英语又不是法语的,太奇怪了。“你给我翻译翻译什么这是?”灵机一动的小哥把其中一个“单词”“Vicootes”当作描述丢给模型,没想到,出来这样一堆图像:

有萝卜、有南瓜、有小柿子…… 难道“Vicootes”就代表蔬菜?有意思。接着他又把气泡中的那一串“Apoploe vesrreaitais”扔给 DALL-E 2,一堆鸟图出现了:

“哦我明白了,这个单词代表‘鸟’,所以农民们似乎在谈论影响他们蔬菜的鸟类?”看来 DALL-E 2 没有糊弄人……

“我发现了 DALL-E 2 的秘密语言!”小哥惊呼,继而打算再验证一下这是不是偶然。还是刚才提到的鲸鱼讨论食物的例子中,小哥把那串“Wa ch zod rea”再输回去。结果还真出来一堆吃的,而且还全是海鲜,符合鲸鱼们的“食性”

DALL-E 2,真・诚不我欺。更进一步,他用这些“咒语”搭配形容图像风格的词,看看 DALL-E 2 是否能正常解析。结果也都没问题。看看这些“手绘鸟“、“卡通鸟”、“3D 鸟”以及“线稿鸟”:

emmmm,最后一张怎么混进来个蚊子?先不管它了(一会再说)。所以这个模型为什么要用这种秘密语言来表示呢?

为什么会这样?

“DALL-E 2 秘密咒语”话题之热,也引来了众多“解析侠”们的关注。例如一位叫 k1uge 的网友便提出,问题出在了 BPE(Byte Pair Encoding)身上。

BPE 是自然语言语言处理中较为重要的编码方式之一,也是一种常见的 token 压缩方法,在很多大语言模型中都会涉及。

它的核心思路就是:

每一步都将最常见的一对相邻数据单位,替换为该数据中没有出现过的一个新单位,反复迭代直到满足停止条件。

举个例子,如果要压缩“aaabdaaabac”这个单词,BPE 就会先找出最常见的相邻字节对,即“aa”。找到它之后,就可以用新的字节 Z 去代替,那么这个单词就变成了“ZabdZabac”。同理,下一个最常见相邻字节对是“ab”,用 Y 来代替,单词会进一步被压缩成“ZYdZYac”。再下一个最常见相邻字节对是“ZY”,用 X 来替代,最后单词就变成了“XdXac”。

……

于是,基于这样的原理,这位网友查了下 DALL-E 2 针对“鸟类”所用的 BPE。

它是这样的:apo, plo, e, ,ve, sr, re, ait, ais

而现实中很多鸟类的拉丁文学名,就有“apo”和“plo”的前缀。例如 Apodidae(雨燕)和 Ploceidae(织布鸟),这两个单词属于鸟类的 2 种鸟科,每个科都有 100 余种。像 Apodiformes(雨燕目)是鸟类中最大的目,共有 400 余种。于是这位网友便认为,DALL-E 2 是从标有这些“学术用语”标签的图片中,获取到了关于鸟类的大部分信息。

或许这就是造成 DALL-E 2 秘密咒语的原因了。

但,事情还有反转

激动的博士小哥还专门写了一篇小论文讲述这个事情,还把这些发现都发在了推特上,引来数千网友围观,令大家直呼“Incredible”。

不过很快就有人亲自去试了一下,发现好像事情并没有那么简单。比如代表“虫子”的那一串“Contarra ccetnxniams luryca tanniounons”,除了虫子,也会生成一些青蛙、牛或者鸽子的图像。

如果给这个描述再加上“cartoon”一词作为限定,生成的是一些“奶奶”,跟虫子完全不搭边??

“Apoploe vesrreaitais”倒是没问题,出来的还是一些鸟。

不过同样,一旦给它加上“cartoon”“3D render”这类词,又不对了,出来的是一些虫子。(这和小哥最后那个例子里出现的蚊子也对应上了。)

代表蔬菜的“Vicootes”也是这样,单输没问题,一加上风格限定,出现的物种就变了;且基本可以说只符合“油画”“卡通”这些风格设定,跟前面的名词限定毫无关联,比如“Vicootes”+“painting”就是一堆纯风景绘画。

接着他还用同样的“两只鲸鱼谈论食物,带字幕”生成了一些图片,结果大部分文字都看不清,也没法转录。最后找到一张这样的:

他用上面的”Evve waeles”再输入后,虽然得到了一张甜点照片,但出现了很多运动员、动物甚至水壶的照片。

还真的有点摸不着头脑了。于是这位实验者就表示:在我看来,这更像是一些随机的噪音,而不是 DALL-E 2 的秘密语言。

他艾特了博士小哥,希望他可以再给出相反的证据。目前小哥还没有答复。

不过这确实是一个值得关注和讨论的话题,鉴于一些“咒语”和图像可以对上,如果真的是 BPE 码的话,那么真可能博士小哥所说:

有人用“白盒”方法解开这种规则,拿到一些违禁词的“咒语”,就可以绕过模型的过滤器了。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享