9 天前

自引导掩码自编码器用于领域无关的自监督学习

Johnathan Xie, Yoonho Lee, Annie S. Chen, Chelsea Finn
自引导掩码自编码器用于领域无关的自监督学习
摘要

自监督学习在利用大量无标签数据学习有效表征方面表现出色,并已在多种数据模态中取得成功。然而,将自监督学习方法扩展至新模态仍面临挑战,因为现有方法的具体设计通常针对特定领域,例如依赖于领域特定的数据增强策略,这些策略反映了目标任务中的不变性特征。尽管掩码建模(masked modeling)作为一种领域无关的自监督学习框架具有广阔前景,因其不依赖输入数据增强,但其掩码采样过程仍具有领域依赖性。为此,我们提出自引导掩码自编码器(Self-guided Masked Autoencoders, SMA),一种完全领域无关的掩码建模方法。SMA通过训练基于注意力机制的模型,采用掩码建模目标,自主学习掩码采样策略,无需任何领域特定假设。我们在蛋白质生物学、化学性质预测和粒子物理三个自监督学习基准任务上对SMA进行了评估。结果表明,SMA能够在不依赖领域知识的情况下有效学习表征,并在上述三个任务中均取得了当前最优的性能表现。