長尾物体検出における豊富な意味論的情報と粗い位置情報の活用

長尾物体検出(Long-tailed Object Detection: LTOD)は、現実世界のデータセットにおける極端なデータの不均衡を扱うことを目指しています。これらのデータセットでは、多くの尾部クラスが少ないインスタンスしか持たないため、問題となっています。一般的な戦略の一つとして、画像レベルのラベルを持つ追加データを活用することが挙げられますが、その効果は限られています。これは主に以下の二つの理由によるものです。(1) 意味的曖昧性 -- 画像レベルのラベルは画像の注目すべき部分のみを捉え、残りの豊富な意味内容を無視します;(2) 位置依存性 -- ラベルは元の画像の位置や切り出し範囲に大きく依存しており、ランダムクロッピングなどのデータ変換後には変化する可能性があります。これを解決するために、私たちはRichSemという単純ながら効果的な手法を提案します。この手法は、正確なバウンディングボックスなしで粗い位置から豊富な意味内容を学習することに優れています。RichSemは画像から豊富な意味内容を抽出し、それを検出器の訓練における追加的なソフト監督として利用します。具体的には、検出器に意味的ブランチを追加してこれらのソフト意味内容を学習し、長尾物体検出の特徴表現を強化します。意味的ブランチは訓練時のみ使用され、推論時には削除されます。RichSemは異なるバックボーンや検出器を使用した場合でもLVISにおいて全体的にも稀少カテゴリにおいても一貫した改善を達成しています。当手法は複雑な訓練やテストプロセスを求めることなく最先端の性能を発揮します。さらに、他の長尾データセットでの有効性についても追加実験を通じて示しています。コードは\url{https://github.com/MengLcool/RichSem}で公開されています。