3ヶ月前

MV-DETR:マルチビューDEtecton TRansformersを用いたマルチモダリティ室内オブジェクト検出

Zichao Dong, Yilin Zhang, Xufeng Huang, Hang Ji, Zhan Shi, Xin Zhan, Junbo Chen
MV-DETR:マルチビューDEtecton TRansformersを用いたマルチモダリティ室内オブジェクト検出
要約

本稿では、効果的かつ効率的なTransformerベースの検出手法として、新たなMV-DETRパイプラインを提案する。入力としてRGBDデータを用いる際、RGBデータに対しては非常に強力な事前学習済み重みが存在する一方で、深度情報に関連するデータに対する有効な学習手法は限定的であることに着目する。まず第一に、幾何学的特徴とテクスチャ的特徴の両方が極めて重要であり、それらを別々に符号化できるべきであると主張する。第二に、3次元空間におけるテクスチャ特徴の抽出は、幾何特徴の抽出よりも困難であることを確認した。残念ながら、数千枚程度のRGBDデータから構成される単一のデータセットでは、テクスチャ特徴を効果的に抽出するための判別力のあるフィルタを学習するには不十分である。最後に、視覚的テキストエンコーダ、幾何エンコーダ、およびVGコネクタから構成される軽量なVGモジュールを設計した。従来の最先端手法(例:V-DETR)と比較して、事前学習済み視覚エンコーダの恩恵が明確に顕在化している。ScanNetV2データセットにおける広範な実験により、本手法の有効性が実証された。特に注目すべきは、本手法がScanNetV2ベンチマークにおいて78%のAP(平均精度)を達成し、新たな最先端性能を樹立した点である。