相対位置認識を備えたインスタンスフリーなテキストからポイントクラウドへのローカリゼーション

テキストから点群へのクロスモーダル定位(text-to-point-cloud cross-modal localization)は、将来のロボット-人間協働に不可欠な新興の視覚言語タスクである。本タスクは、都市規模の点群シーンから自然言語による少数の指示に基づいて位置を特定することを目的としている。本論文では、従来手法に見られる二つの主要な限界に着目する。第一に、真値のインスタンス(ground-truth instances)を入力として依存している点であり、第二に、潜在的なインスタンス間の相対的位置関係を無視している点である。本研究では、粗い段階(coarse stage)におけるテキスト-セル検索と、細かい段階(fine stage)における位置推定を実行する二段階パイプラインを提案する。両段階において、インスタンスクエリ抽出器を導入する。この抽出器では、3Dスパース畳み込みU-Netによりセルが符号化され、マルチスケールの点群特徴が生成される。その後、一連のクエリがこれらの特徴に逐次アテンションを適用し、インスタンスを表現する。粗い段階では、インスタンスクエリ間の空間関係を捉えるために、行-列相対位置を意識した自己アテンション(Row-Column Relative Position-aware self-attention, RowColRPA)モジュールを設計した。細かい段階では、テキスト特徴と点群特徴に加えて空間関係を統合するため、マルチモーダル相対位置を意識したクロスアテンション(multi-modal Relative Position-aware cross-attention, RPCA)モジュールを構築した。KITTI360Poseデータセットにおける実験結果から、真値インスタンスを入力とせずに、最先端モデルと同等の性能を達成できることを示した。