Optimisation contrastive généralisée des réseaux Siamese pour la reconnaissance de lieux

La reconnaissance de lieu visuel constitue une tâche difficile en vision par ordinateur et représente un élément clé des systèmes de localisation et de navigation basés sur des caméras. Récemment, les réseaux de neurones convolutifs (CNN) ont atteint de très bons résultats ainsi qu'une bonne capacité de généralisation. Ils sont généralement entraînés à l’aide de paires ou de triplets d’images étiquetés de manière binaire comme similaires ou non similaires. En pratique, la similarité entre deux images n’est pas binaire, mais continue. De plus, l’entraînement de ces CNN est computationnellement coûteux et repose sur des stratégies complexes d’extraction de paires ou de triplets. Nous proposons une fonction de perte contrastive généralisée (GCL), fondée sur une mesure continue de similarité entre images, que nous utilisons pour entraîner un CNN siamois. En outre, nous présentons trois techniques automatisées d’annotation des paires d’images avec des étiquettes indiquant leur degré de similarité, et les appliquons pour réannoter les jeux de données MSLS, TB-Places et 7Scenes. Nous démontrons que les CNN siamois entraînés avec la fonction GCL et les annotations améliorées surpassent de manière constante leurs homologues entraînés de façon binaire. Nos modèles entraînés sur MSLS surpassent les méthodes de pointe actuelles, notamment NetVLAD, NetVLAD-SARE, AP-GeM et Patch-NetVLAD, tout en se généralisant efficacement sur les jeux de données Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2 et Extended CMU Seasons. En outre, l’entraînement d’un réseau siamois à l’aide de la fonction GCL ne nécessite pas de stratégies complexes d’extraction de paires. Nous mettons à disposition le code source à l’adresse suivante : https://github.com/marialeyvallina/generalized_contrastive_loss.