丨智能时代

.hd-box .hd-fr

给出 3 个词，AI 直接作画！OpenAI 发布 DALL・E 2.0，掌握多种画风，分辨率提高 4 倍

2022-04-09 11:11雷峰网(我在思考中)49评

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL・E 吗？

当时，DALL・E 的画风是这样的：

只要「阅读」文本，DALL・E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL・E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在近日，时隔一年后，OpenAI 结合 CLIP，又发布了 DALL・E 的第二个版本 ——DALL・E 2.0！

相比 DALL・E 1.0，DALL・E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成「现实主义」图像与艺术作品！分辨率更是提高了 4 倍！

比如，当提示文本中分别包含「概念」“An astronaut ”（一个宇航员）、「属性」“riding a horse”（在骑一匹马）和「风格」“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一个宇航员 + 骑马 + 超现实风格）

DALL・E 2 可以生成如下这些同时包含三种元素的图像：

在满足三种给定元素的基础上，它可是充分发挥了自己的「想象力」，不仅马的姿态各不相同，而且给宇航员穿上了样式各异的服装，场景也是十分丰富，草地上、山顶上、星空中......

神不神奇！牛不牛！

让我们来欣赏 DALL・2.0 的大师作品！

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个，比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”，而将超现实主义风格替换为波普艺术家安迪・沃霍尔的风格，DALL・E 2 也可以「轻松」转换它的绘画风格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一个宇航员 + 在骑一匹马 + 安迪・沃霍尔的风格）

DALL・E 2 生成的图像：

文本提示：An astronaut + riding a horse + as a pencil drawing（一个宇航员 + 在骑一匹马 + 铅绘风格）

DALL・E 2 生成的图像：

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一个宇航员 + 在太空热带度假胜悠哉地躺着 + 蒸汽波风格）

DALL・E 2 生成的图像：

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊们 + 正在像疯狂的科学家一样混合着冒泡的化学物质 + 20 世纪 90 年代的周六早间卡通片风格）

DALL・E 2 生成的图像：

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊 + 购买杂货 + 浮世绘风格）

DALL・E 2 生成的图像：

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊 + 购买杂货 + 古埃及风格）

DALL・E 2 生成的图像：

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗汤 + 通往另一个维度的门户 + 数字艺术风格）

DALL・E 2 生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗汤 + 宇宙中的一个星球 + 1960 年代海报风格）

DALL・E 2 生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗汤 + 宇宙中的一个星球 + 数字艺术风格）

DALL・E 2 生成的图像：

DALL・E 2.0 的其他功能

1、图像编辑

DALL・E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑，比如，在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下：

文本描述的编辑需求：选择一个位置在图中添加火烈鸟。

原图 vs. DALL・E 2 编辑后的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL・E 2 编辑后的图像：

2、风格变体

DALL・E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

DALL・E 2 创造的同一风格图像：

原图 2：

DALL・E 2 创造的同一风格图像：

原图 3：

DALL・E 2 创造的同一风格图像：

原图 4：

DALL・E 2 创造的同一风格图像：

对于 AI 从文本生成的图像，我们非常看重的一点当然是图像的分辨率了，图像的分辨率越高，像素数量就越多，图像也就越清晰和逼真。与 DALL・E 1 相比，DALL・E 2 的分辨率提高了 4 倍！

比如，对于同样的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐狸坐在日出时的田野里 + 克劳德・莫奈风格）

下面两张图分别是 DALL・E 1 和 DALL・E 2 所生成图像的对比：

对比之下，DALL・E 1 生成的图像可以说是很模糊了，甚至根本看不出「日出」在哪里，「狐狸」只显露出它的头部，「田野」也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在 DALL・E 2 的魔法手笔下，图像质量显著提高，「日出」和「田野」都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL・E 1.0，DALL・2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL・E 2 的相关研究论文：

论文地址：https://cdn.openai.com/papers/dall-e-2.pdf

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，分享赚金币换豪礼

人工智能 AI

斯坦福研究员用 AI 分析电池图像中的原子活动，以此降低电池的消耗量

五部门：运用人工智能、大数据等新技术识别高校内“替课”“替考”等行为

美国防部新项目曝光：军事行动决策过程中引入人工智能技术

大家都在买广告

热门评论

查看更多评论