8 个月前

摘要

在无监督域适应（UDA）中，一个在源数据（例如合成数据）上训练的模型被调整以适应目标数据（例如真实世界数据），而无需访问目标数据的注释。大多数先前的UDA方法在处理目标域中视觉外观相似的类别时遇到困难，因为没有可用的真实标签来学习这些细微的外观差异。为了解决这一问题，我们提出了一种掩码图像一致性（Masked Image Consistency, MIC）模块，通过学习目标域的空间上下文关系作为额外线索，增强UDA的鲁棒视觉识别能力。MIC强制要求掩码目标图像（其中随机区域被遮挡）的预测结果与基于完整图像生成的伪标签之间的一致性，这些伪标签是由指数移动平均教师模型生成的。为了最小化一致性损失，网络必须学会从上下文中推断出掩码区域的预测结果。由于其简单且通用的概念，MIC可以集成到各种视觉识别任务中的不同UDA方法中，如图像分类、语义分割和目标检测。MIC显著提高了合成到真实、白天到夜间以及晴朗天气到恶劣天气UDA的不同识别任务中的最先进性能。例如，在GTA-to-Cityscapes和VisDA-2017数据集上，MIC分别实现了前所未有的75.9 mIoU和92.8%的UDA性能，相比之前的方法分别提升了2.1和3.0个百分点。该实现代码可在https://github.com/lhoyer/MIC获取。

源 PDF