6 月 17 日消息,据 Facebook 官网显示,他们刚刚公布了一个新的 AI 项目 —— 文本样式笔刷(TextStyleBrush)。只需要提交某一个单词的图像,文本样式笔刷就可以复制照片中文字的字迹,然后将其他文本统一替换成该类文字的样式。简单来说,就是可以模仿你的字迹。
同时,文本样式笔刷技术运用了一种新的自我监督 AI 模型,可以预先通过字体分类器(font classifier)和文本识别器(text recognizer)训练来识别源样式(source style samples)和目标内容。
Facebook 认为,文本样式笔刷将释放人们的创造性以及自我表达的潜力,协助打造个性化的文本和字幕。在 AR 领域,文本样式笔刷可以提供虚拟和现实之间的文本转换(photo-realistic translation of languages)技术。
目前,这份研究成果已经在 6 月 10 日发表在 Facebook 官网,报告名称为《文本样式笔刷:通过一个简单的例子来继承“字形美学”(TextStyleBrush: Transfer of text aesthetics from a single example)》。
报告链接:
https://ai.facebook.com/research/publications/textstylebrush-transfer-of-text-aesthetics-from-a-single-example
文本样式笔刷类似于文字处理器里的格式刷工具,更像文字版本的 Deepfake(AI 换脸软件)。
文本样式笔刷采用了先进的 AI 训练方法,可以一次性传输所有信息,然后自动分离图像中的文字信息与字体边框、纸张背景等,不需要重新输入新的源样式示例。
与之前大多数人工图像生成技术不同,文本样式笔刷并不需要研发者设定特定类型或目标样式的参数。研发团队试图构建一个足够灵活的人工智能系统来理解现实生活中不同文本和笔迹之间的细微差别。
▲图源 Facebook
这意味着,该人工智能系统需要自主理解任何字体的呈现形式,不仅是字体、书法、文字风格,而且还需要理解字体形式的不同变换,如旋转、弯曲(curved text)、纸笔之间的变形,以及图片背景干扰(image noise)等。
如果 AI 不能剔除这些干扰信息,就不能从图片中完整地得到文字本身的相关信息。同时,研发团队也很难为整个字母表或者数字的所有呈现形式都配上注释。
该项研究证明,人们可以借助 AI,在各类场景中更加灵活和准确地表达“字体美学”。但研究报告也同时提到,目前文本样式笔刷技术仍有不足,还难以识别金属材质或不同颜色的文本。
经验表明,文本样式笔刷可以模仿垃圾桶、路牌、饮料瓶、店面装饰等多场景下字体的文本样式。
文本样式笔刷技术对合成图片的要求同样很高。
▲图源 Facebook 研究报告
TextStyleBrush 模型是基于 StyleGAN2 设计,能够形成非常逼真的图片。
文本样式笔刷技术不但可以将印刷体都转换成手写体,同时可以识别其他样式的文字,将它自动合成手写体样式。
同时,Facebook 还通过结合文字样式分类、文本识别(OCR)和 GAN 这三种模型来保留文字输出的样式,再用通过字体分类器和文本识别器来“判断”图像的文字内容是否合格。
在期待新技术的应用时,Facebook 也在报告中提到对技术滥用的担忧。
他们担心该项技术可能会如 Deepfake 一样遭到滥用,甚至成为不法分子的作案工具,因此该项技术暂时不会落地现实。
Facebook 表示,他们希望通过公开这项 AI 研究结果,鼓励业内更多人士对虚拟文本的研究,以避免受到深度伪造文本攻击(deepfake text attacks)。
他们认为,如果人工智能研究人员能够在构建仿真文本方面技术领先,就可以更好地建立识别虚假文本的技术体系。
目前这项技术仅存在研究,但 Facebook 表示它可以在未来应用广泛,比如将图像文本翻译成不同的语言,创建个性化的文本信息和标题,甚至协助在 AR 世界里翻译现实文本。
2017 年,Deepfake 首次在美国社交新闻网站 Reddit 亮相,成功互换两部电影女主角的脸。但很快,就被全球封禁。这期间,有一些人因为利益利用 Deepfake 伪造总统致辞,散布不实传闻等,人们在真与假中惶惶不安。
图片上的 PS 技术,视频领域的 Deepfake 换脸技术,文字领域的文本样式笔刷技术都会让人难以分别真假,从而引发一系列辨别真假的闹剧。
在期待技术给人们带来更多便捷的时候,我们也要不忘对新的技术抱有谨慎的态度。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。