小扎亲自官宣 Meta 视觉大模型,自监督学习无需微调,多任务效果超 OpenCLIP,开源

无需文字标签,完全自监督的 Meta 视觉大模型来了!

小扎亲自官宣,发布即收获大量关注度 ——

在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫 DINOv2 的视觉大模型均取得了非常不错的效果。

甚至有超过当前最好的开源视觉模型 OpenCLIP 之势。

虽然此前 Meta 就发布过自监督学习视觉大模型 DINO,不过这次 AI 识别图像特征的能力显然更进一步,准确分割出了视频中的主体:

可别以为 DINOv2 通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:

换而言之,DINOv2 自己学会了找图像特征。

目前 Meta 官方不仅已经放出了开源代码,而且还给了网页版 Demo 试玩。有网友内涵:

什么叫开源,LLaMA,SAM,DINOv2 这才叫开源!

一起来看看,DINOv2 的效果究竟如何。

准确识别不同画风的同种物体

事实上,DINOv2 是基于上一代 DINOv1 打造的视觉大模型。

这个模型参数量是 10 亿级,也仍然是视觉 Transformer 架构(ViT),但与 DINO 不太一样的是,这次 DINOv2 在数据集上经过了精心挑选。

具体来说,DINOv2 构建了一个数据筛选 pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:

最终呈现给 DINOv2 的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。

采用这类数据训练出来的视觉模型,效果如何?

这是 DINOv2 在 8 个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。

可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。

实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2 也能准确识别它们的特征,并分到相似的列表中。

如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:

而且从 PCA(主成分分析)图像效果来看,DINOv2 不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。

换而言之,DINOv2 能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。

目前 DINOv2 已经放出 Demo,我们也试了试它的实际效果。

Demo 直接可玩

官网已经开放语义分割、图像检索和深度估计三大功能的试玩。

据 Meta 介绍,这几个任务中,DINOv2 在大多数基准上超过了目前开源视觉模型中表现最好的 OpenCLIP。

我们先来看看深度估计的效果。

值得一提的是,在效果更好的情况下,DINOv2 运行的速度也比 iBOT 更快,相同硬件下只需三分之一的内存,运行速度就能比 DINOv2 快上 2 倍多。

这是 Meta 论文中与 OpenCLIP 在实际例子上的比较效果:

我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:

接下来是语义分割的效果,这里也先给出 Meta 论文中的数据对比情况:

这里也给出 OpenCLIP 和 DINOv2 的对比,中间的图片是 OpenCLIP 的效果,右边是 DINOv2 分割的效果:

我们也用一张办公室的图片试了一下,看起来 DINOv2 还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:

最后是图片检索

官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:

这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:

那么,这样的自监督视觉大模型可以用在哪里?

从 Meta 给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:

除此之外,如同扎克伯格所说,DINOv2 还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:

可以被用于制作更具沉浸感的元宇宙。

嗯,看来 Meta 的元宇宙路线还将继续……

试玩 Demo 地址:

https://dinov2.metademolab.com/demos

项目地址:

https://github.com/facebookresearch/dinov2

参考链接:

  • https://www.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63Ca4yMXFcDXQcukYPbWUMl

本文来自微信公众号:量子位 (ID:QbitAI),作者:萧箫

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      请登录后查看评论
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享