不做文盲画家，谷歌魔改「文本编码器」：一个小操作让图像生成模型学会「拼写」

新智元
2023-01-06 14:00

图像生成模型终于学会了拼写单词，秘诀竟是字符特征？

过去的一年里，随着 DALL-E 2，Stable Diffusion 等图像生成模型的发布，text-to-image 模型生成的图像在分辨率、质量、文本忠实度等方面都得到了飞跃性提升，极大促进了下游应用场景的开发，人人都成了 AI 画家。

但相关研究表明，目前的生成模型技术仍然存在一个重大缺陷：无法在图像中呈现出可靠的视觉文本。

有研究结果表明，DALL-E 2 在图片中生成连贯文本字符上非常不稳定，而最新发布的 Stable Diffusion 模型则是直接将「无法呈现可读的文本」列为已知的限制。

字符拼写错误：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近 Google Research 发布了一篇新论文，试图了解并提高图像生成模型渲染高质量视觉文本的能力。

论文链接：https://arxiv.org/ abs / 2212.10562

研究人员认为当下的 text-to-image 生成模型模型存在文本渲染缺陷的主要原因是缺乏字符级的输入特征。

为了量化该输入特征在模型生成中的影响，文章中设计了一系列控制实验对是否包含文本输入特征的文本编码器（character-aware 和 character-blind）进行对比。

研究人员发现，在纯文本领域，character-aware 模型在一个新的拼写任务（WikiSpell）上获得了很大的性能收益。

将该经验迁移到视觉领域后，研究人员训练了一套图像生成模型。实验结果表明 character-aware 模型在一系列新的文本渲染任务（DrawText 基准）中比 character-blind 更胜一筹。

并且 character-aware 模型在视觉拼写方面达到了更高的技术水平，尽管训练的样例数量少得多，其在不常见的单词上的准确率仍然比竞争模型高出 30 多个百分点。

Character-Aware 模型

语言模型可分为直接访问构成其文本输入字符的 character-aware 模型和无法访问的 character-blind 模型。

许多早期的神经语言模型直接在字符上进行操作，而不使用多字符的 token 作为标记。

后来的模型逐渐转向基于词汇表的 tokenization，其中一些模型如 ELMo 仍然保留了 character-aware，但其他模型如 BERT 则放弃了字符特征以支持更有效的预训练。

目前，大多数广泛使用的语言模型是 character-blind 的，依靠数据驱动的子词（subword）分割算法，如字节对编码（BPE）来生成子词 pieces 作为词汇表。

虽然这些方法对于不常见的序列可以退回到字符级表示，但它们在设计上仍然会将常见的字符序列压缩成不可分割的单元。

这篇论文的主要目的是试图了解并提高图像生成模型渲染高质量视觉文本的能力。

为此，研究人员首先孤立地研究了当下文本编码器的拼写能力，从实验结果可以发现，尽管 character-blind 文本编码器很受欢迎，但它们没有收到关于其输入的字符级构成的直接信号，导致其拼写能力有限。

研究人员还测试了不同规模、架构、输入表示、语言和调整方法的文本编码器的拼写能力。

这篇论文首次记录了 character-blind 模型通过网络预训练诱导出强大的拼写知识（准确率 > 99%）的神奇能力，但实验结果表明这项能力在英语之外的语言中并没有得到很好的泛化，而且只有在超过 100B 参数的规模下才能实现，所以对于大多数应用场景是不可行的。

另一方面，character-aware 的文本编码器能够在更小的尺度上实现强大的拼写能力。

在将这些发现应用于图像生成场景时，研究人员训练了一系列 character-aware 的文本到图像的模型，并证明它们在现有的和新的文本渲染的评估中明显优于字符盲目的模型。

但对于纯字符级模型来说，虽然文本渲染的性能提升了，但对于不涉及视觉文本的 prompt，图像-文本对齐度则会下降。

为了缓解这一问题，研究人员建议将字符级和 token 级的输入表征结合起来，从而可以实现最佳的性能。

WikiSpell 基准

由于文本到图像的生成模型依赖于文本编码器来产生用于解码的表征，研究人员首先从 Wiktionary 中采样一些单词创建了 WikiSpell 基准，然后基于此数据集在一个纯文本的拼写评估任务来探索文本编码器的能力。

对于 WikiSpell 中的每个样例，模型的输入是一个单词，预期的输出是它的具体拼写（通过在每个 Unicode 字符之间插入空格来生成）。

由于该文章仅对研究一个词的频率和模型的拼写能力之间的关系感兴趣，所以研究人员根据单词在 mC4 语料库中出现的频率，将 Wiktionary 中的词分成五个互不重叠的桶：最频繁的前 1% 的词，最频繁的 1-10% 的词，10-20% 的词，20-30% 的词，以及最低的 50% 的词（包括在语料库中从未出现过的词）。

然后从每个桶中均匀地抽取 1000 个词来创建一个测试集（以及一个类似的开发集）。

最后通过结合两部分建立了一个由 10,000 个词组成的训练集：5,000 个从最底层的 50% 桶（最不常见的词）中统一取样，另外 5,000 个根据它们在 mC4 中的频率按比例取样（从而使这一半的训练集偏向频繁的词）。

研究人员将任何被选入开发集或测试集的词排除在训练集之外，因此评估结果总是针对被排除的词。

除了英语外，研究人员还对其他六种语言（阿拉伯语、汉语、芬兰语、韩语、俄语、泰语）进行评估，选择这些语言是为了涵盖影响模型学习拼写能力的各种特性，对每一种语言的评估都重复上述数据集构建过程。

文本生成实验

研究人员使用 WikiSpell 基准来评估多种预训练的纯文本模型在不同规模上的表现，包括 T5（一个在英语数据上预训练的 character-blind 编码解码器模型）；mT5（与 T5 类似，但在超过 100 种语言上预训练）；ByT5（mT5 的 character-aware 版本，直接在 UTF-8 字节序列上操作）；以及 PaLM（一个规模更大的解码模型，主要是在英语上预训练的）。