
摘要
我们提出了一种名为多模态多任务掩码自编码器(Multi-modal Multi-task Masked Autoencoders, MultiMAE)的预训练策略。该方法在两个关键方面区别于传统的掩码自编码(Masked Autoencoding):其一,它可选择性地接收除RGB图像之外的其他模态信息作为输入(因此称为“多模态”);其二,其训练目标相应地包含对多种输出的预测任务(因此称为“多任务”)。我们通过在图像块和输入模态上施加掩码(masking),不仅使MultiMAE的训练变得可行,还确保了网络能够真正学习到跨模态的预测编码能力。实验表明,该预训练策略构建了一个灵活、简洁且高效的框架,在下游任务的迁移性能上显著提升。特别地,同一套预训练网络可在有额外信息(如深度图、语义标签等)或仅有RGB图像的情况下灵活使用,无论何种配置,均能取得与基线方法相当甚至显著更优的性能。为避免依赖需多模态和多任务标注的训练数据,我们完全采用伪标签(pseudo labeling)的方式训练MultiMAE,从而使其可广泛应用于任意RGB图像数据集。我们在多个下游迁移任务(图像分类、语义分割、深度估计)和数据集(ImageNet、ADE20K、Taskonomy、Hypersim、NYUv2)上进行了实验。结果表明,该模型在跨模态与跨任务的预测编码能力方面展现出令人瞩目的强大性能,充分验证了其通用性与有效性。