2ヶ月前

MiPa: 混合パッチ赤外線-可視モダリティ非依存物体検出

Medeiros, Heitor R. ; Latortue, David ; Granger, Eric ; Pedersoli, Marco
MiPa: 混合パッチ赤外線-可視モダリティ非依存物体検出
要約

実世界のシナリオでは、可視光(RGB)と赤外線(IR)などの複数のモダリティを使用することで、物体検出(Object Detection, OD)などの予測タスクの性能を大幅に向上させることができます。マルチモーダル学習は、これらのモダリティを活用する一般的な方法であり、複数のモダリティ固有のエンコーダと融合モジュールを使用して性能を向上させる手法です。本論文では、異なるアプローチとして、単一の共有ビジョンエンコーダがRGBまたはIRのいずれかのモダリティのみを観察する設定を取り扱います。この現実的な設定は、より少ないメモリ使用量を必要とし、自動運転や監視など、通常RGBとIRデータに依存するアプリケーションに適しています。しかし、単一のエンコーダで複数のモダリティを学習すると、一方のモダリティが他方を支配し、認識結果が偏る可能性があります。本研究では、このようなモダリティ間の不均衡の影響に対抗しながら、共通のトランスフォーマーベースのODビジョンエンコーダを訓練するために、RGBとIRからパッチをミックスする新しい訓練技術「Mix Patches (MiPa)」を導入します。これには、パッチごとのモダリティ非依存モジュールも組み合わせて使用されます。実験結果は、推論時に単一のモダリティのみが必要であるにもかかわらず、MiPaが従来のRGB/IRベンチマークで競争力のある結果を得られる表現を学習できることを示しています。当該コードは以下のURLで公開されています: https://github.com/heitorrapela/MiPa.

MiPa: 混合パッチ赤外線-可視モダリティ非依存物体検出 | 最新論文 | HyperAI超神経