2ヶ月前

異なるモダリティに対する統一されたオブジェクト検出器 - ビジョントランスフォーマーを基に

Shen, Xiaoke ; Stamos, Ioannis
異なるモダリティに対する統一されたオブジェクト検出器 - ビジョントランスフォーマーを基に
要約

伝統的なシステムは、異なるモダリティ(例如、RGB画像と深度画像)の処理に異なるモデルを必要とするのが一般的です。最近の研究では、あるモダリティ用の単一モデルがクロス・モダリティ転移学習を用いて別のモダリティにも適応可能であることが示されています。本論文では、このアプローチを拡張し、クロス/インターモダリティ転移学習とビジョントランスフォーマーを組み合わせて、多様なモダリティにおいて優れた性能を達成する統合検出器を開発しました。我々の研究は、ロボット工学における応用シナリオを見据えており、統合システムが異なる照明条件下でRGBカメラと深度センサ間をシームレスに切り替えることを想定しています。重要な点は、この滑らかな切り替えのためにシステムがモデルアーキテクチャや重みの更新を必要としないことです。具体的には、低照度条件(夜間)では深度センサを使用し、明るい環境下ではRGBカメラと深度センサの両方またはRGBカメラのみを使用します。我々はSUN RGB-Dデータセット上で統合モデルを評価し、SUNRGBD16カテゴリにおいてmAP50に関して最新手法と同等かそれ以上の性能を達成することを示しました。また、ポイントクラウドのみのモードでも同程度の性能を達成しています。さらに、我々は新しいインターモダリティミキシング手法を提案しており、これにより以前の手法よりも著しく良い結果を得ています。再現性とさらなる研究を促進するために、訓練/推論ログやモデルチェックポイントなどを含むコードも提供しています。\url{https://github.com/liketheflower/UODDM}

異なるモダリティに対する統一されたオブジェクト検出器 - ビジョントランスフォーマーを基に | 最新論文 | HyperAI超神経