回転物体検出のための適応型回転畳み込み

回転物体検出は、任意の方向を有する物体を画像内で識別し、位置を特定することを目的としている。このタスクでは、画像間で物体の回転方向が大きく変化する一方で、同一画像内に複数の異なる向きを持つ物体が存在するという特徴がある。このような本質的な性質により、従来のバックボーンネットワークでは、任意の方向を有する物体の高品質な特徴を効果的に抽出することが困難である。本論文では、上記の課題に対処するため、適応的回転畳み込み(Adaptive Rotated Convolution, ARC)モジュールを提案する。本ARCモジュールでは、畳み込みカーネルが画像ごとに適応的に回転することで、異なる方向を有する物体の特徴を効果的に抽出する。さらに、画像内での物体の大きな方向変動に対応できる効率的な条件付き計算機構を導入している。これらの設計は、回転物体検出の問題においてスムーズに連携する。また、ARCモジュールは、さまざまなビジョンバックボーンに即插即用(plug-and-play)で統合可能であり、回転物体の検出性能を高めるための表現能力を強化する。一般的に用いられるベンチマーク(DOTAおよびHRSC2016)における実験結果から、バックボーンネットワークに本提案のARCモジュールを導入することで、複数の代表的な回転物体検出器の性能が顕著に向上することが示された(例:Rotated RetinaNetではmAPが+3.03%、CFAでは+4.16%)。さらに、非常に高い性能を示すOriented R-CNNと組み合わせた場合、DOTAデータセットにおいて81.77%のmAPを達成し、最先端の性能を実現した。コードは以下のURLから公開されている:\url{https://github.com/LeapLabTHU/ARC}。