
要約
視覚的場所認識(Visual Place Recognition, VPR)手法は、特定の場所を識別する上で「有用性(utility)」が高いとされる視覚的特徴、画像領域、ランドマークを特定することで、場所間のマッチングを試みてきた。しかし、「有用性」という概念は一義的ではなく、多様な形態をとる。本論文では、VPRにおいて重要な二種類の有用性を推定する新しいアプローチを提案する。具体的には、環境特有の有用性と、特定の場所特有の有用性の二つである。我々は、対照学習(contrastive learning)の原理を用いて、VLAD(Vector of Locally Aggregated Descriptors)クラスタの環境特有および場所特有の有用性を教師なし(unsupervised)の形で推定し、その結果をキーポイント選択を通じて局所特徴マッチングに導く。この二つの有用性測度を統合することで、三つの困難なベンチマークデータセットにおいて最先端の性能を達成しつつ、必要なストレージ容量および計算時間も削減した。さらに、教師なしクラスタ選択が意味的に有意義な結果をもたらすことを示す分析を行い、高レベルの意味的カテゴリ(例:建物、道路)よりも、より細粒度なカテゴリ化がVPRにおいて高い有用性を持つ傾向にあることを明らかにした。また、異なる場所や環境におけるこれらの有用性測度の変動特性についても検証した。本研究のソースコードは、https://github.com/Nik-V9/HEAPUtil にて公開されている。