HyperAIHyperAI

Command Palette

Search for a command to run...

MiPa: 混合パッチ赤外線-可視モダリティ非依存物体検出

Heitor Rapela Medeiros* David Latortue* Eric Granger Marco Pedersoli

概要

実世界のシナリオでは、可視光(RGB)と赤外線(IR)などの複数のモダリティを使用することで、物体検出(Object Detection, OD)などの予測タスクの性能を大幅に向上させることができます。マルチモーダル学習は、これらのモダリティを活用する一般的な方法であり、複数のモダリティ固有のエンコーダと融合モジュールを使用して性能を向上させる手法です。本論文では、異なるアプローチとして、単一の共有ビジョンエンコーダがRGBまたはIRのいずれかのモダリティのみを観察する設定を取り扱います。この現実的な設定は、より少ないメモリ使用量を必要とし、自動運転や監視など、通常RGBとIRデータに依存するアプリケーションに適しています。しかし、単一のエンコーダで複数のモダリティを学習すると、一方のモダリティが他方を支配し、認識結果が偏る可能性があります。本研究では、このようなモダリティ間の不均衡の影響に対抗しながら、共通のトランスフォーマーベースのODビジョンエンコーダを訓練するために、RGBとIRからパッチをミックスする新しい訓練技術「Mix Patches (MiPa)」を導入します。これには、パッチごとのモダリティ非依存モジュールも組み合わせて使用されます。実験結果は、推論時に単一のモダリティのみが必要であるにもかかわらず、MiPaが従来のRGB/IRベンチマークで競争力のある結果を得られる表現を学習できることを示しています。当該コードは以下のURLで公開されています: https://github.com/heitorrapela/MiPa.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています