2ヶ月前

一般化ゼロショット学習者を用いたオープンドメイン画像の地理的位置特定

Lukas Haas; Silas Alberti; Michal Skreta
一般化ゼロショット学習者を用いたオープンドメイン画像の地理的位置特定
要約

画像の地理位置特定は、与えられた写真の発信元の地理座標を予測するという難易度の高い課題です。この問題は未解決であり、視覚的な手がかりと世界に関する一般的な知識を組み合わせて、地理的に正確な予測を行う能力に依存しています。本稿では、$\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$ を紹介します。これは堅牢で公開されている基盤モデルであり、複数のオープンドメインの画像地理位置特定ベンチマークにおいて最先端の性能を達成しており、さらに400万枚以上の画像で学習された監督モデルを凌駕するゼロショット設定でも優れた性能を発揮します。当手法では、合成キャプションからCLIPを事前学習することで選択したドメインにCLIPを根ざすメタ学習アプローチを導入し、一般化ゼロショット学習を行います。実験結果から、当手法がCLIPの一般化ゼロショット能力を画像地理位置特定のドメインに効果的に転送し、固定クラスセットでのファインチューニングなしにドメイン内の一般化ゼロショット性能を向上させていることが示されました。

一般化ゼロショット学習者を用いたオープンドメイン画像の地理的位置特定 | 最新論文 | HyperAI超神経