Patch-NetVLAD : Fusion multi-échelle de descripteurs locaux et globaux pour la reconnaissance de lieu

La reconnaissance de lieu visuel constitue une tâche difficile pour la robotique et les systèmes autonomes, qui doivent faire face à deux problèmes fondamentaux : les variations d’apparence et de point de vue dans un monde en constante évolution. Ce papier présente Patch-NetVLAD, une nouvelle formulation permettant de combiner les avantages des méthodes descripteurs locaux et globaux en extrayant des caractéristiques au niveau des patches à partir des résidus de NetVLAD. Contrairement au régime de voisinage spatial fixe des descripteurs locaux traditionnels basés sur des points-clés, notre méthode permet une agrégation et un correspondance de caractéristiques locales apprises profondément, définies sur une grille de l’espace des caractéristiques. Nous introduisons également une fusion multi-échelle de caractéristiques de patches aux échelles complémentaires (c’est-à-dire aux tailles de patch différentes) via un espace des caractéristiques intégré, et montrons que les caractéristiques fusionnées sont fortement invariants aux variations de conditions (saison, structure, éclairage) et de points de vue (translation et rotation). Patch-NetVLAD surpasser les méthodes basées sur des descripteurs globaux ou locaux, tout en conservant une charge de calcul comparable, et atteint des résultats de pointe en reconnaissance de lieu visuel sur une variété de jeux de données réels exigeants, notamment en remportant le Facebook Mapillary Visual Place Recognition Challenge lors de l’ECCV 2020. De plus, il est adaptable aux besoins des utilisateurs, avec une version optimisée pour la vitesse fonctionnant plus d’un ordre de grandeur plus rapidement que l’état de l’art. En combinant des performances supérieures à une efficacité computationnelle améliorée au sein d’un cadre configurables, Patch-NetVLAD est particulièrement bien adapté à l’amélioration des capacités autonomes de reconnaissance de lieu et de la performance globale des systèmes SLAM.