il y a 2 mois

PlaNet - Géolocalisation photographique avec des réseaux de neurones convolutifs

Tobias Weyand; Ilya Kostrikov; James Philbin

Résumé

Est-il possible de construire un système capable de déterminer l'endroit où une photo a été prise en utilisant uniquement ses pixels ? En général, le problème semble extrêmement difficile : il est trivial de créer des situations où aucune localisation ne peut être inférée. Cependant, les images contiennent souvent des indices informatifs tels que des monuments, des modèles météorologiques, de la végétation, des marquages routiers et des détails architecturaux, qui combinés peuvent permettre de déterminer une localisation approximative et parfois même exacte. Des sites web comme GeoGuessr et View from your Window suggèrent que les humains sont relativement doués pour intégrer ces indices afin de géolocaliser des images, en particulier lorsqu'elles sont traitées en masse. En vision par ordinateur, le problème de la géolocalisation photographique est généralement abordé à l'aide de méthodes de recherche d'images. En revanche, nous formulons ce problème sous forme de classification en subdivisant la surface terrestre en milliers de cellules géographiques multi-échelles, et en formant un réseau profond à l'aide de millions d'images géotaguées. Alors que les approches précédentes ne reconnaissent que des monuments ou effectuent un appariement approximatif à l'aide de descripteurs globaux d'image, notre modèle est capable d'utiliser et d'intégrer plusieurs indices visibles. Nous montrons que le modèle résultant, appelé PlaNet, surpasse les approches précédentes et atteint même des niveaux de précision supérieurs à ceux d'un être humain dans certains cas. De plus, nous étendons notre modèle aux albums photos en le combinant avec une architecture à mémoire à court et long terme (LSTM). En apprenant à exploiter la cohérence temporelle pour géolocaliser des photos incertaines, nous démontrons que ce modèle réalise une amélioration des performances de 50 % par rapport au modèle mono-image.