17 天前
重新审视视觉感知模型的弱监督预训练
Mannat Singh, Laura Gustafson, Aaron Adcock, Vinicius de Freitas Reis, Bugra Gedik, Raj Prateek Kosaraju, Dhruv Mahajan, Ross Girshick, Piotr Dollár, Laurens van der Maaten

摘要
模型预训练是现代视觉识别系统的核心基础。尽管在ImageNet等数据集上采用完全监督方式的预训练仍是当前事实上的标准,但近期研究表明,大规模弱监督预训练在某些情况下可超越完全监督方法的表现。本文重新审视了基于标签(hashtag)监督的弱监督预训练方法,采用现代残差网络架构,并利用迄今为止规模最大的图像与对应标签数据集进行实验。我们评估了所得到模型在多种迁移学习场景下的性能,包括零样本迁移(zero-shot transfer)。同时,我们将这些模型与大规模自监督学习所得模型进行了对比。结果表明,我们的弱监督模型在所有测试场景中均表现出极强的竞争力,且显著优于相应的自监督模型。此外,我们还深入探究了模型是否习得了潜在的有害关联或刻板印象。总体而言,本研究为在视觉识别系统开发中采用弱监督学习提供了有力支持。我们提出的模型名为“通过标签实现的弱监督”(Supervised Weakly through hashtAGs, SWAG),已公开发布,可供研究社区使用。