17日前

Text2Loc:自然言語からの3Dポイントクラウド定位

Yan Xia, Letian Shi, Zifeng Ding, João F. Henriques, Daniel Cremers
Text2Loc:自然言語からの3Dポイントクラウド定位
要約

3次元点群の位置推定を、少数の自然言語記述に基づいて行う問題に取り組み、点とテキスト間の意味的関係を完全に解釈できる新しいニューラルネットワーク「Text2Loc」を提案する。Text2Locは、粗いから細かい段階へと進む位置推定パイプラインに従う:まずテキスト・サブマップを用いたグローバルな場所認識を行い、その後、細かい位置推定を実施する。グローバルな場所認識においては、階層的トランスフォーマーと最大プーリング(HTM)を用いて、各テキスト的ヒント間の関係的ダイナミクスを捉える。一方、テキスト・サブマップ間の対比学習により、正例と負例のペアのバランスを維持する。さらに、従来の複雑なテキストインスタンスマッチングを完全に排除し、より軽量で高速かつ高精度な新しいマッチングフリーな細かい位置推定手法を提案する。広範な実験の結果、Text2LocはKITTI360Poseデータセットにおいて、最先端手法と比較して位置推定精度を最大で2倍まで向上させた。本研究のプロジェクトページは、公開されている:\url{https://yan-xia.github.io/projects/text2loc/}。