原文标题:《视觉版 ChatGPT 来了!吸收 AI 画画全技能,MSRA 全华人团队打造,微软 16 年老将领衔》
ChatGPT 会画画了!
问它:能生成一张猫片给我吗?
立刻连文带图全有了。
还能根据新的文字指令调整图片:把猫换成狗。
同时也看得懂图、有理解能力。
比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。
如上,就是由 MSRA 资深研究人员们提出的视觉版 ChatGPT(Visual ChatGPT)。
通过给 ChatGPT 结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让 ChatGPT 可以处理各种视觉任务。
这项工作一发出来就火了,GitHub 揽星已超过 1.5k。
简单总结一下,就是把 GPT 和 Dall-E 合并的感觉~
又懂文字又会画图…… 有人就说:
这不是终极 meme 图制造机?
Visual ChatGPT,其实就是让 ChatGPT 可以处理多模态信息。
但是从头训练一个多模态模型,工作量非常大。
研究人员想到可以在 ChatGPT 的基础上,结合一些视觉模型。
而想要达到这一目的,关键需要一个中间站。
由此他们提出了提示管理器(Prompt Manager)的概念。
它的作用主要有 3 方面:
第一、明确告诉 ChatGPT,每个视觉模型的作用,并指定好输入输出格式。
第二、转换不同的视觉信息,如将 PNG 图像、深度图像、掩码矩阵等转换为语言格式,方便 ChatGPT 理解。
第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让 ChatGPT 能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。
这样一来,Visual ChatGPT 的工作流大概长这样:
假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给 ChatGPT 判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。
第二个问题时,ChatGPT 分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到 ChatGPT 判断不再需要调用视觉模型时,才会输出结果。
论文介绍,Visual ChatGPT 中包含了 22 个不同的视觉模型。包括 Stable Diffusion、BLIP、pix2pix 等。
为了验证 Visual ChatGPT 的能力,他们还进行了大量零次试验(zero-shot experiments)。
结果如开头所示,Visual ChatGPT 具备很强的图像理解能力。
可以一直按照人的需求不断生成、修改图片。
当然,研究人员也提到了这项工作目前还存在一些局限性。
比如生成结果的质量,主要取决于视觉模型的性能。
以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。
最后,在输入图片的隐私安全上,还需要做进一步升级保护。
本项研究成果来自微软亚洲研究院的团队。
通讯作者是段楠。
他是 MSRA 首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF 杰出会员。
主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。
2006 年加入 MSRA,任职已超 16 年。
第一作者Chenfei Wu,同样是一位资深研究人员了。
据领英资料显示,他于 2012 年加入微软,任职 11 年,目前是一位软件工程师。
论文地址:
https://arxiv.org/abs/2303.04671
参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337
本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。