CPlaNet : Amélioration de la géolocalisation d'images par partitionnement combinatoire des cartes

La géolocalisation d'images est la tâche qui consiste à identifier l'emplacement représenté dans une photographie en se basant uniquement sur ses informations visuelles. Cette tâche est intrinsèquement difficile, car de nombreuses photos ne contiennent que peu de indices, éventuellement ambigus, concernant leur localisation géographique. Des travaux récents ont reformulé cette tâche comme un problème de classification en divisant la Terre en un ensemble de cellules discrètes correspondant à des régions géographiques. La granularité de cette division présente un compromis crucial : l'utilisation de moins mais plus grandes cellules entraîne une précision moindre de la localisation, tandis que l'utilisation de plus mais plus petites cellules réduit le nombre d'exemples d'entraînement par classe et augmente la taille du modèle, ce qui le rend plus susceptible au surapprentissage. Pour aborder ce problème, nous proposons un algorithme simple mais efficace, appelé partitionnement combinatoire, qui génère un grand nombre de classes de sortie à grain fin en croisant plusieurs partitionnements à grain grossier de la Terre. Chaque classifieur vote pour les classes à grain fin qui chevauchent leurs classes respectives à grain grossier. Cette technique nous permet de prédire des emplacements à une échelle fine tout en maintenant un nombre suffisant d'exemples d'entraînement par classe. Notre algorithme atteint des performances de pointe dans la reconnaissance des lieux sur plusieurs jeux de données de référence.