16 天前
掩码建模双元:通过鼓励两个网络共同建模输入来学习表示
Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino

摘要
掩码自编码器(Masked Autoencoders)是一种简单而强大的自监督学习方法。然而,它通过重建被掩码的输入图像块来间接学习表征。尽管已有若干方法通过直接预测被掩码块的表征来学习表征,但我们认为,仅利用被掩码块来获取训练信号,比使用所有图像块来编码训练信号更为高效。为此,我们提出了一种新方法——掩码建模双网络(Masked Modeling Duo, M2D),该方法在直接学习表征的同时,仅通过被掩码块获取训练信号。在M2D框架中,在线网络(online network)负责编码可见块并预测被掩码块的表征,而目标网络(target network)——即动量编码器(momentum encoder)——则负责编码被掩码块。为了更准确地预测目标网络的表征,在线网络需对输入进行良好建模,同时目标网络也应具备良好的建模能力,以与在线网络的预测保持一致。由此,所学习到的表征将更有效地捕捉输入数据的本质结构。我们在通用音频表征学习任务上验证了M2D的有效性,结果表明,M2D在UrbanSound8K、VoxCeleb1、AudioSet20K、GTZAN和SpeechCommandsV2等多个基准任务上均取得了新的最先进(state-of-the-art)性能。此外,我们在附录中进一步通过ImageNet-1K数据集验证了M2D在图像任务上的有效性。