6 个月前

摘要

尽管ImageNet等知名大规模数据集在推动图像理解方面发挥了重要作用，但这些数据集大多依赖大量人工标注，难以实现高效扩展，从而限制了图像理解技术的进一步发展。这些大规模数据集的影响几乎体现在每一个视觉任务与技术中，主要体现为通过预训练进行模型初始化。在本研究中，我们提出了一种易于扩展且无需人工标注的自监督学习方法，可用于任意语义RGB分割方法的预训练。特别地，我们的预训练方法利用深度传感器自动生成的标签，即HN标签（Height and Normal labels），该标签表征不同高度与法线方向的图像块，能够有效挖掘对语义RGB分割任务具有价值的局部语义信息。实验表明，使用我们提出的基于HN标签的自监督预训练方法，可在仅使用ImageNet数据量1/25的图像且无需任何人工标注的情况下，替代传统的ImageNet预训练。我们采用HN标签对语义分割网络进行预训练，其任务与最终目标（语义分割）的相似性远高于在与之关联较弱的任务（如ImageNet上的分类）上进行预训练。我们在NYUv2和CamVid两个数据集上进行了评估，结果表明，任务间的高度相似性不仅显著加速了预训练过程，还带来了优于传统ImageNet预训练的最终语义分割性能。

源 PDF