首次超越人类：“读图会意”这件事，AI 比你眼睛更毒辣

在超越人类这件事上，AI 又拿下一分。

就在最近，国际权威机器视觉问答榜单 VQA Leaderboard，更新了一项数据：

AI 在“读图会意”任务中，准确率达到了 81.26%。

要知道，我们人类在这个任务中的基准线，也才 80.83%。

而解锁这一成就的，是来自阿里巴巴达摩院团队的 AliceMind-MMU。

而此举也就意味着，AI 于 2015 年、2018 年分别在视觉识别和文本理解超越人类之后，在多模态技术方面也取得了突破！

AI 比你更会看图

这个 AI 有多会看图？

来看下面几个例子就知道了。

当你问 AI：“这些玩具用来做什么的？”

它就会根据小熊穿的礼服，回答道：

婚礼。

给 AI 再提一个问题：“男人的橄榄球帽代表哪只球队？”

它会根据帽子中的“B”字母回答：

波士顿球队。

加大挑战难度再来一个。

“图中玩具人的 IP 出自哪部电影？”

这时候，AI 就会根据图中的玩具，还有战斗场景等信息，做一个推理。

不过最后还是精准的给出了答案：

星球大战。

再例如下面这些例子中，AI 都会捕捉图片中的细节信息，来精准回答提出的问题。

嗯，可以说是细致入微了。

可能上面的这些案例，对于人类来说并不是很困难。

但对于 AI 来说，可不是件容易的事情。

一个核心难点就是：

需要在单模态精准理解的基础上，整合多模态的信息进行联合推理认知，最终实现跨模态理解。

怎么破？

阿里达摩院的做法是，对 AI 视觉-文本推理体系进行了系统性的设计，融合了大量的创新算法。

具体来看，大致可以分为四个内容：

多样性的视觉特征表示：从各方面刻画图片的局部和全局语义信息，同时使用 Region，Grid，Patch 等视觉特征表示，可以更精准地进行单模态理解；
基于海量图文数据和多粒度视觉特征的多模态预训练：用于更好地进行多模态信息融合和语义映射，提出了 SemVLP、Grid-VLP、E2E-VLP 和 Fusion-VLP 等预训练模型。
自适应的跨模态语义融合和对齐技术：在多模态预训练模型中加入 Learning to Attend 机制，来进行跨模态信息地高效深度融合。
Mixture of Experts (MOE）技术：进行知识驱动的多技能 AI 集成。