8 个月前

摘要

“分类与定位共享头”（sibling head）这一结构最早由 Fast R-CNN~\cite{girshick2015fast} 提出，在过去五年中引领了目标检测领域的研究潮流。本文观察到，该结构中分类与定位两个任务在空间上的错位（spatial misalignment）会显著影响训练过程，而这一问题可通过一个极为简单的操作——任务感知空间解耦（Task-aware Spatial Disentanglement, TSD）得到有效解决。TSD 通过共享的候选区域（proposal）生成两个解耦的独立候选区域，分别用于分类和回归任务，从而在空间维度上实现两者的解耦。这一设计源于一个自然的洞察：对于某个目标实例而言，其显著区域（salient region）的特征可能富含分类信息，而边界附近的特征则更有利于边界框回归。令人惊喜的是，这一简洁的设计在 MS COCO 和 Google Open Images 两个数据集上，能够一致地提升所有骨干网络（backbone）与检测模型的性能，平均精度（mAP）提升约 3%。进一步地，我们提出一种渐进式约束机制，以进一步扩大解耦候选区域与共享候选区域之间的性能差距，从而额外获得约 1% 的 mAP 提升。实验表明，所提出的 \algname{} 模型在性能上大幅突破了当前单模型检测器的上限（在 ResNet-101 上达到 mAP 49.4，在 SENet-154 上达到 mAP 51.2），并成为我们在 2019 年 Google Open Images Challenge 中获得第一名解决方案的核心模型。

源 PDF