Réseaux de correspondance multi-échelle pour la correspondance sémantique

Les caractéristiques profondes se sont avérées puissantes pour établir des correspondances sémantiques denses précises dans de nombreuses études antérieures. Toutefois, la hiérarchie multi-échelle et pyramidale des réseaux de neurones convolutifs n’a pas été suffisamment explorée afin d’apprendre des caractéristiques au niveau pixel discriminantes pour les correspondances sémantiques. Dans cet article, nous proposons un réseau de correspondance multi-échelle sensible aux petites différences sémantiques entre pixels voisins. Nous adoptons une stratégie de correspondance de grossier à fin et construisons un schéma d’amélioration des caractéristiques et de correspondance en cascade vers le haut, intégré à la hiérarchie multi-échelle des réseaux de neurones convolutifs profonds. Lors de l’amélioration des caractéristiques, l’amélioration intra-échelle fusionne des cartes de caractéristiques de même résolution issues de plusieurs couches à l’aide d’une attention locale auto-supervisée, tandis que l’amélioration inter-échelle génère artificiellement des cartes de caractéristiques à résolution plus élevée le long de la hiérarchie ascendante. Par ailleurs, nous apprenons des détails complémentaires de correspondance à différentes échelles, de sorte que le score global de correspondance est progressivement affiné à partir de caractéristiques aux différents niveaux sémantiques. Notre réseau de correspondance multi-échelle peut être entraîné de manière end-to-end de manière simple, avec un nombre négligeable de paramètres supplémentaires à apprendre. Les résultats expérimentaux montrent que la méthode proposée atteint un niveau d’art sur trois benchmarks populaires, tout en offrant une efficacité computationnelle élevée.