
摘要
许多现代目标检测器通过采用“看两次、想两次”的机制实现了卓越的性能。本文在目标检测的主干网络设计中探索了这一机制。在宏观层面,我们提出了递归特征金字塔(Recursive Feature Pyramid),该结构将特征金字塔网络(Feature Pyramid Networks)的额外反馈连接引入自底向上的主干网络层中;在微观层面,我们提出了可切换空洞卷积(Switchable Atrous Convolution),该方法使用不同的空洞率对特征进行卷积,并通过切换函数融合结果。二者结合形成了DetectoRS模型,显著提升了目标检测的性能。在COCO测试集(test-dev)上,DetectoRS在目标检测任务中取得了55.7%的边界框平均精度(box AP),在实例分割任务中达到48.5%的掩码平均精度(mask AP),在全景分割任务中实现50.0%的全景分割精度(PQ),均达到当前最优水平。相关代码已公开发布。