
写真のピクセルだけを使用してその撮影場所を特定するシステムを構築することは可能でしょうか?一般的には、この問題は非常に困難であると言えます。位置情報を推測できない状況を作り出すことは簡単です。しかし、画像にはランドマーク、気象パターン、植物、道路標識、建築物の詳細など、情報となる手がかりが含まれていることが多く、これらの組み合わせによって概略的な位置や時には正確な位置を特定できる可能性があります。GeoGuessrやView from your Windowなどのウェブサイトは、人間がこれらの手がかりを統合して画像の位置情報を特定する能力が高いことを示唆しており、特に大量の画像に対してはその能力が発揮されます。コンピュータビジョンにおいては、写真の地理的位置特定問題は通常、画像検索手法を使用してアプローチされます。それに対し、我々は地球表面を数千の多スケール地理セルに分割し、分類問題として捉えることでこの問題に取り組みました。数百万枚のジオタグ付き画像を使用して深層ネットワークを訓練しました。従来の手法ではランドマークのみを認識したり、全体的な画像記述子を使用して概略的なマッチングを行うのが限界でしたが、我々のモデルは複数の可視的手がかりを使用し統合することができます。結果的に得られたモデル「PlaNet」は、従来の手法よりも優れた性能を示し、場合によっては人間を超える精度を持つことが確認されました。さらに、我々は単一の写真だけでなくフォトアルバムにも対応するため、長短期記憶(LSTM)アーキテクチャと組み合わせてモデルを拡張しました。時間的連続性を利用して位置情報が不確かな写真を特定することを学習させることで、このモデルは単一画像モデルに比べて50%以上の性能向上を達成しました。