宋朝名画“虎戴 VR”，在外网火了

2022-06-05 13:55量子位(关注前沿科技)73评

谁能曾想，宋朝的老虎们，有一天能在国外被玩儿火了。

事情是这样的，前不久谷歌不是出了个 AI 创作神器 Imagen 嘛。只要你给一句话，它就能生成符合语意的图片。

然后脑洞大开的国外网友们，不按套路地给 Imagen 出了道题：

给宋代的东方老虎佩戴 VR。

Imagen 也没在怕的，“啪的一下”就给出了一幅力作 ——《虎戴 VR》。

还别说，这幅《虎戴 VR》还真是有点那味了。不仅是画风上，VR 头戴跟老虎以及整幅画作能够保持一致。就连手柄、双虎嬉戏的感觉也都一步到位地画了出来。

然后还有两只老虎戴 VR，手牵着手一起“恰恰恰”的：

甚至 Imagen 还别出心裁地设计了个“连线”版 VR（可能在面对面看片吧）：

但毕竟在 AI 作画这事上，除了谷歌 Imagen 之外还有很多神器。于是，一场《虎戴 VR》作画大战就此拉开序幕。

（猜猜谁家的画更有“心有猛虎，细嗅蔷薇”的味道）

DALL-E 也来请战

首先来应战的，定然是OpenAI 家的 DALL・E。

网友 Jacob 出于好奇，便用它做了几幅来做比较。

首先是满满“定妆照”风格的《虎戴 VR》（很飒啊）：

不难看出，DALL・E 的画作和 Imagen 在风格上还是有很大的区别。

Imagen 的画作更趋于简约线条风，而 DALL・E 则更多了些许油画的元素。

不过在意境方面，DALL・E 也是能够产出“双虎嬉戏”，甚至是拟人的画作：

二者相比之下，网友们给出了他们的评价：

大多数网友们对谷歌家的 Imagen 更买单。

而除了它俩之外，像AI 绘画神器 MidJourney也参与到了此次“大战”。不过它的作品，就显得略有些诡异了……

DALL·E VS Imagen

那么，同样作为 AI 创作神器，最近大火的 Imagen 和 DALL・E 为何画风会截然不同呢？

Open AI 的 DALL・E 和谷歌的 Imagen，都可以直接通过文本描述生成类似超现实主义的图像，让机器也能拥有设计师般的创造力。

不过，二者的“创作”原理大不相同。

DALL・E 2 采用 CLIP 将文本特征映射到图像特征，然后指导一个 GAN 或扩散模型生成图像。

所谓 CLIP，是一个在各种图像和文本上训练的神经网络，对生成的多张图片进行排序，挑选出更好的生成结果进行展示。

而谷歌的 Imagen 则使用纯语言模型只负责编码文本特征，把文本到图像转换的工作丢给了图像生成模型。

语言模型部分使用的是谷歌自己的 T5-XXL 编码器，将训练好的文本冻结。

图像生成部分则是一系列扩散模型，先生成低分辨率图像，再逐级超采样。

谷歌的 T5-XXL 有 46 亿个参数，而扩大文本编码器的规模，可以有效改善文本到图像的对应关系，和图像的保真度。

此外，Imagen 还使用了另一种称为 noise conditioning augmentation 的扩散技术，帮助模型学习已添加的噪声量，从而提高图像的还原性。

对比来看，Imagen 似乎比 DALL・E 更具有“写实”的特点：

目前，在 Imagen 官网上已涌现出各种新奇的图像。

有人给浣熊戴上了宇航员头盔。

泰迪熊在这里开始游蝶泳。

还有老鹰型的巧克力冰淇淋（嗯，还挺应景）。

截至目前，Imagen 和 DALL・E 都还在调试阶段，尚未向公众开放。

One More Thing

这次《虎戴 VR》AI 作画大战中，也不乏有失败的作品。

例如有网友就给出了用 DALL・E mini 来生成的示例。

不难看出，在这版中的《虎戴 VR》中，并没有任何 VR 的出现，而且老虎的面部基本上都是模糊不清。

据网友描述，他在生成的过程中，只是把“北宋”改成了“南宋”：

画作最难的“形象性”，在这次有所下降。

那么你觉得《虎戴 VR》，哪家 AI 神器更强一些呢？

参考链接：

https://twitter.com/hardmaru/status/1532757753797586944?s=21&amp;amp;amp;t=MhwVN5VXH22zFK7DWQJnCg

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

AI VR 图像生成

《柳叶刀》：AI 诊断系统可分辨患者的种族，准确率高达 90%

消息称苹果 VR / AR 头显将拥有好莱坞导演创作的内容，明年推出

“一句话生成视频”AI 爆火：分辨率达到 480×480，只支持中文输入，轮到国外网友学翻译了

大家都在买广告

热门评论

查看更多评论