17日前

ProGEO:画像・テキスト対比学習を用いたプロンプト生成による視覚的地物局所化

Chen Mao, Jingqi Hu
ProGEO:画像・テキスト対比学習を用いたプロンプト生成による視覚的地物局所化
要約

視覚的地物局所特定(Visual Geo-localization: VG)とは、クエリ画像に記述された場所を特定するプロセスを指し、自律走行車、メタバース、拡張現実(AR)、SLAM(同時定位と地図構築)など、ロボティクスおよびコンピュータビジョン分野で広く応用されている。特に、明確なテキスト記述が欠如する細粒度画像において、純粋な視覚的手法を用いて周辺領域の特徴を表現しようとすると、モデルが過度に細かい特徴に注目しがちとなり、画像内の意味情報(セマンティック情報)を十分に抽出できなくなるという課題が生じる。この問題に対処するため、本研究では視覚性能を向上させるための二段階学習手法を提案し、対照学習(contrastive learning)を活用して困難なサンプルを効果的に抽出する。まず、CLIP(Contrastive Language-Image Pretraining)の多モーダル記述能力を活用し、地理画像の特徴ごとに学習可能なテキストプロンプトのセットを生成することで、曖昧な記述を構築する。次に、動的プロンプトを用いて画像エンコーダの学習を支援することで、より汎用性の高い視覚特徴を学習可能にする。本手法は、純粋な視覚タスクにテキスト情報を導入する戦略として、地理画像に正確な記述が不足しがちな多モーダルモデルの活用を困難にしている課題に有効に対応している。提案手法の有効性は、複数の大規模視覚的地物局所特定データセット上で検証され、複数のベンチマークにおいて競争力ある結果を達成した。本研究のコードおよびモデルは、https://github.com/Chain-Mao/ProGEO にて公開されている。