微小物体検出のための変換器R-CNNを備えたノイズ除去FPN

コンピュータビジョン分野における顕著な進展にもかかわらず、微小物体の正確な検出は依然として大きな課題であり、画像データにおけるこれらの物体に割り当てられる画素表現が極めて小さいことが主な要因である。この課題は、都市計画や環境モニタリングなど多様な応用が期待される地理科学およびリモートセンシング分野において特に顕著である。本論文では、微小物体検出性能を向上させるため、新たなフレームワーク「DeNoising FPN with Trans R-CNN(DNTR)」を提案する。DNTRは、容易に統合可能な構造を持つDeNoising FPN(DN-FPN)と、効果的なTransformerベースの検出器であるTrans R-CNNから構成される。特に、特徴量ピラミッドネットワーク(FPN)における特徴量の融合は、マルチスケール物体の検出において重要である。しかし、異なるスケール間の特徴量間に正則化が存在しないため、融合プロセス中にノイズを含む特徴量が生成される可能性がある。そこで、FPNのトップダウンパスにおける各レベルの特徴量におけるノイズを抑制するために、対照学習(contrastive learning)を活用するDN-FPNモジュールを導入した。さらに、2段階フレームワークに基づき、従来のR-CNN検出器に代えて、自己注意機構(self-attention)を活用して微小物体の表現に特化した新規のTrans R-CNN検出器を採用した。実験結果から、AI-TODデータセットにおけるAPvt(微小物体に対する平均精度)でベースライン比17.4%以上、VisDroneデータセットにおけるAP(平均精度)で9.6%以上の性能向上が確認された。本研究のコードは、https://github.com/hoiliu-0801/DNTR にて公開される予定である。