武大等开源大幅面高清卫星影像数据集:涵盖 21 万 + 地理目标,复杂地理空间场景知识精准生成

AI 卫星影像知识生成模型数据集稀缺的问题,又有新解了。

来自武汉大学、上海 AI 实验室、西工大等 9 家机构共同推出了该领域的大型数据集,涵盖了 21 万个地理目标和 40 万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景,也都包括在了数据集当中。

具体来说,该数据集名为 RSG,主要面向卫星影像中的目标检测(OBD)和场景图生成(SGG)任务。

SGG 有助于促进模型对地理空间场景从感知到认知的智能理解,但一直缺乏大幅面、超高分辨率的卫星影像数据。

而 RSG 的出现很好地填补了这一空白,一同提出的还有基于上下文感知的逐级认知(CAC)框架,以及配套的 SGG 工具包

有关论文已经在 arXiv 公开发布,相应的数据集和工具包也已经开源。

大幅面超高分辨率卫星影像数据集

在卫星影像(SAI)领域当中,场景图生成(SGG)技术可以促进对地理空间场景从感知到认知的智能理解。

在 SAI 中,地理目标的尺度和纵横比变化大,地理目标之间(甚至是空间不相交的地理目标之间)存在丰富的关联,这使得 SGG 有必要在大幅面超高分辨率卫星影像中整体进行。

然而现实情况是,大幅面超高分辨率卫星影像的 SGG 数据集比较缺乏,这无疑限制了 SGG 在 SAI 中的进展。

又由于大幅面超高分辨率卫星影像的复杂性,挖掘目标-关系三元组 <目标 1, 关系,目标 2> 严重依赖于远程上下文推理,传统为小幅面自然图像设计的 SGG 模型,不能直接适用于大幅面卫星影像。

注:下图是大幅面超高分卫星影像中的 SGG 示意图,其中第一行分别展示了大幅面超高分卫星影像的目标检测和场景图生成结果,第二行为对应的局部细节展示。在第二行末尾图中,黑色箭头表示仅依赖于孤立目标对可预测的关系,而红色箭头表示需要借助上下文推断的复杂关系。

于是,为了解决数据集稀缺问题,研究团队构建了首个面向大幅面超高分卫星影像的大规模场景图生成数据集 RSG。

该数据集影像幅面跨越 512×768 到 27,860×31,096 像素,包含超过 21 万个地理目标和超过 40 万个目标-关系三元组

▲ RSG 数据集中目标分布 (a) 和关系分布 (b) 统计

内容上,RSG 收集了空间分辨率为 0.15-1m 范围的卫星影像,涵盖了全球范围内与人类活动密切相关的 11 类复杂地理空间情景

这些场景包括机场、港口、核电站、火电站、风力发电站、水坝和服务区、立交桥、水面桥、施工工地和体育运动场景等。

▲ RSG 数据集中影像采样的地理分布和示例

在遥感领域专家的指导下,研究团队将所有地理目标划分为 48 个细粒度类,并使用定向边界框(OBB)进行精确标注,所有关系按照 8 个大类、58 个细粒度类进行标注。

提出上下文感知框架

为了进一步实现大幅面超高分卫星影像中的 SGG,研究团队还提出了一个基于上下文感知的逐级认知(CAC)框架。

该框架从三个层面深入理解卫星影像 —— 目标检测(OBD)、目标对剪枝和关系预测:

在目标检测上,团队提出了“能够灵活集成多尺度上下文的整体多类目标检测网络(HOD-Net)”,可以检测大幅面超高分辨率卫星影像中的目标;

在目标对剪枝方面,作者则设计了“基于对抗生成的候选对生成(PPG)网络”,来筛选包含高价值关系的目标对;

在关系预测任务中,团队又提出了“带有上下文感知消息传递(RPCM)的关系预测网络”来预测候选对的关系类型。

在 RSG 测试集上的结果表明,在目标检测任务中,无论是基于水平框(HBB)还是有向框(OBB)的检测器,团队提出的 HOD-Net 框架都取得了总成绩和多个单项的 SOTA。

注释:

1.表格中,b_b 为 boarding_bridge, l_t 表示 lattice_tower, s_l 为 ship_lock, g_d 为 gravity_dam。

2.所有实验都基于标准的“1x”(12epochs) 训练设置。

3.†表示主干网络为 Swin-L,其他的主干网络都为 ResNet50。

4.下划线表示下方的方法使用该模型作为基础检测器。

同时测试结果还表明,HOD-Net 方法也优于一些其他的训练方式。

下面的图更加直观地展示了不同目标检测策略的可视化结果。

剪枝任务上,团队提出的 PPG 策略也在多个模型上运行的测试中超越了传统方法。

生成情景当中,团队设计的的 RPCM 网络在基于 HBB 和 OBB 检测器的所有指标上,同样优于先前的主流 SGG 方法。

下图是不同 SGG 模型在 RSG 数据集中情景生成结果的可视化展示。

此外,为了促进大幅面超高分辨率卫星影像中 SGG 的发展,研究团队还发布了面向大面超高分辨率卫星影像的 SGG 工具包(其中包含约 30 种 OBD 方法和 10 种 SGG 方法),并基于 RSG 数据集进行了的全面基准测试。

数据集和相关工具包都已开源,可到项目主页中了解详情。

论文地址:

https://arxiv.org/abs/2406.09410

项目主页:

https://linlin-dev.github.io/project/RSG

GitHub:

https://github.com/Zhuzi24/SGG-ToolKit

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

文章价值:
人打分
有价值还可以无价值
置顶评论
    热门评论
      文章发布时间太久,仅显示热门评论
      全部评论
      一大波评论正在路上
        取消发送
        软媒旗下人气应用

        如点击保存海报无效,请长按图片进行保存分享