Apprentissage de modèles généralisés pour la géolocalisation d'images dans un domaine ouvert

La géolocalisation d'images est une tâche ardue qui consiste à prédire les coordonnées géographiques d'origine d'une photographie donnée. Il s'agit d'un problème non résolu qui repose sur la capacité à combiner des indices visuels avec des connaissances générales du monde pour faire des prédictions précises à travers différentes géographies. Nous présentons $\href{https://huggingface.co/geolocal/StreetCLIP}{\text{StreetCLIP}}$, un modèle fondamental robuste et disponible publiquement, qui non seulement atteint des performances de pointe sur plusieurs benchmarks de géolocalisation d'images en domaine ouvert, mais le fait également dans un cadre zéro-shot, surpassant ainsi des modèles supervisés formés sur plus de 4 millions d'images. Notre méthode introduit une approche de méta-apprentissage pour l'apprentissage zéro-shot généralisé en préformant CLIP à partir de légendes synthétiques, ancrant CLIP dans un domaine choisi. Nous démontrons que notre méthode transfère efficacement les capacités d'apprentissage zéro-shot généralisé de CLIP au domaine de la géolocalisation d'images, améliorant les performances zéro-shot généralisées en domaine spécifique sans avoir besoin de fine-tuner StreetCLIP sur un ensemble fixe de classes.