13 天前
DABS:一种面向自监督学习的领域无关基准
Alex Tamkin, Vincent Liu, Rongfei Lu, Daniel Fein, Colin Schultz, Noah Goodman

摘要
自监督学习算法(如 BERT 和 SimCLR)在自然语言处理、计算机视觉和语音处理等领域取得了显著进展。然而,这些算法具有领域特定性,意味着针对每一个新应用场景(包括医疗健康、科学研究以及多模态等众多领域),都需要开发新的自监督学习方法。为推动面向通用领域的自监督学习方法的发展,我们提出了 DABS:一种面向自监督学习的领域无关基准测试(Domain-Agnostic Benchmark for Self-supervised learning)。在 DABS 上表现优异的算法,需在七个不同领域中接受评估:自然图像、多通道传感器数据、英文文本、语音记录、多语言文本、胸部X光片以及带有文本描述的图像。每个领域均提供一个无标签数据集用于预训练,随后根据模型在该领域一组有标签下游任务上的表现进行评分。此外,我们还提出了两个基准性的领域无关算法:e-Mix 和 ShED;其相对有限的性能表明,要使自监督学习真正成为适用于任意领域的即插即用解决方案,仍需取得重大突破。基准数据集及基线算法的代码已开源,可访问 https://github.com/alextamkin/dabs 获取。