2ヶ月前
MambaPlace: 注意メカニズムを用いたテキストからポイントクラウドへのクロスモーダル場所認識
Shang, Tianyi ; Li, Zhenyu ; Xu, Pengjie ; Qiao, Jinwei

要約
Vision Language Place Recognition (VLVPR) は、画像から得られる自然言語の説明を組み込むことで、ロボットの自己位置推定性能を向上させます。言語情報を活用することで、VLVPR はロボットの場所マッチングを導き、視覚情報のみに依存する制約を克服します。マルチモーダル融合の本質は、異なるモーダル間の補完的な情報を抽出することにあります。しかし、一般的な融合手法は伝統的なニューラルアーキテクチャに依存しており、特に複雑なモーダル内相関とモーダル間相関が存在する場合、クロスモーダル相互作用の動態を捉える能力が不足しています。この課題に対処するために、本論文では新しい粗い段階から細かい段階へと進むエンドツーエンド接続型クロスモーダル場所認識フレームワークである MambaPlace を提案します。粗い位置推定段階では、テキスト説明と3D点群データが事前学習済みのT5とインスタンスエンコーダによってそれぞれ符号化されます。その後、Text Attention Mamba (TAM) と Point Clouds Mamba (PCM) を使用してデータ強化と整列が行われます。次の細かい位置推定段階では、テキスト説明と3D点群データの特徴量がクロスモーダル融合され、連続的な Cross Attention Mamba (CCAM) によりさらに強化されます。最終的に、融合されたテキスト・ポイントクラウド特徴量から位置オフセットを予測し、最も正確な自己位置推定を達成します。多数の実験結果から、MambaPlace は KITTI360Pose データセットにおいて最先端の方法よりも高い位置推定精度を達成していることが示されています。