回転物体検出における高精度バウンディングボックス学習:Kullback-Leibler散度を用いた手法

既存の回転物体検出器は、その基盤となる水平方向検出手法が成熟した分野に発展してきたことに由来しており、多くがその枠組みを引き継いでいる。しかし、現行の回帰損失関数の設計上の制約により、特にアスペクト比が大きい物体に対しては、高精度検出において顕著な性能を発揮することが難しい。本研究では、水平方向検出が回転物体検出の特殊ケースであるという視点に立ち、回転回帰損失の設計アプローチを従来の帰納的アプローチ(induction paradigm)から演繹的アプローチ(deduction methodology)へと転換することを提案する。この転換は、回転と水平方向検出の関係性に基づくものである。我々は、回転回帰損失におけるパラメータ間の相互依存性を適応的かつ協調的に制御する方法が、高精度検出において本質的な課題であることを示す。具体的には、回転バウンディングボックスを2次元ガウス分布に変換し、その間のカルバック・ライブラー距離(Kullback-Leibler Divergence, KLD)を回帰損失として用いる。各パラメータの勾配を分析することで、KLD(およびその導関数)が物体の特徴に応じてパラメータの勾配を動的に調整できることを明らかにする。特に、アスペクト比に応じて角度パラメータの重要性(勾配重み)を自動的に調整する機構が実現される。この特性は、アスペクト比が大きい物体ではわずかな角度誤差でも精度が著しく低下するという点で、高精度検出において極めて重要である。さらに重要なのは、KLD損失がスケール不変性を有することを理論的に証明した点である。また、KLD損失が水平方向検出における広く用いられる$l_n$-ノルム損失に退化可能であることも示した。異なる検出器を用いた7つのデータセットにおける実験結果から、本手法の一貫した優れた性能が確認され、実装コードは https://github.com/yangxue0827/RotationDetection および https://github.com/open-mmlab/mmrotate にて公開されている。