15 天前
自监督多模态表征学习在遥感数据中的应用
Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu

摘要
当前许多深度学习方法广泛采用在大规模数据集(如ImageNet)上预训练的骨干网络,并在此基础上进行微调以完成特定任务。然而,在遥感领域,缺乏类似规模的标注数据集,加之传感平台的多样性,严重制约了此类方法的发展。为推动遥感领域预训练骨干网络的可用性,本文提出一种自监督预训练方法,用于深度神经网络的初始化。该方法通过利用带有地理标签的音频记录与遥感影像之间的对应关系,实现完全无标签的预训练,从而避免了耗时耗力的人工标注过程。为此,我们构建了SoundingEarth数据集,该数据集包含全球范围内同步采集的航空影像与音频样本。基于此数据集,我们对ResNet模型进行预训练,使其将多模态样本(图像与音频)映射至共享的嵌入空间,从而促使模型学习到同时影响视觉与听觉感知的关键场景特征。为验证所提方法的有效性,我们对比了通过该方法获得的预训练权重与其他预训练方式所得权重在迁移学习任务中的表现。在多个常用遥感数据集上进行微调实验的结果表明,本文方法在遥感图像预训练方面显著优于现有策略。相关数据集、代码及预训练模型权重将公开发布于:https://github.com/khdlr/SoundingEarth。