18日前

GSV-Cities：適切な教師あり視覚的場所認識への向かって

Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère

要約

本稿では、大規模な視覚的場所認識（visual place recognition）における表現学習について検討する。視覚的場所認識とは、クエリ画像に描かれた場所を、参照画像のデータベースと照合することで特定するタスクであり、天候、照明条件、季節、交通状況、遮蔽といった時間経過に伴う大規模な環境変化の影響により、極めて困難な課題である。現在の進展は、正確な真値（ground truth）を備えた大規模なデータベースの不足によって阻害されている。この課題に対処するため、本研究では、14年間にわたり世界中のすべての大陸にまたがる40都市以上をカバーする、これまでで最も広範な地理的カバレッジを持つ高精度真値を備えた新しい画像データセット「GSV-Cities」を提案する。その後、最近の深層度量学習（deep metric learning）の進展を最大限に活用し、場所認識に特化したネットワークの学習を検討し、異なる損失関数が性能に与える影響を評価する。さらに、既存手法がGSV-Cities上で学習されることで、性能が顕著に向上することを示す。最後に、従来の手法（GeM、NetVLAD、CosPlaceなど）を上回る性能を発揮する、完全畳み込み型のアグリゲーション層を新たに提案し、ピッツバーグ、Mapillary-SLS、SPED、Nordlandといった大規模ベンチマークにおいて、新たな最良の成果を確立した。本データセットおよびコードは、研究目的でGitHub（https://github.com/amaralibey/gsv-cities）にて公開されている。