Intégration des caractéristiques et de la coût avec des transformateurs pour la correspondance dense

Nous présentons une nouvelle architecture pour l'établissement de correspondances denses. Les approches les plus avancées actuellement sont basées sur les Transformers et se concentrent soit sur les descripteurs de caractéristiques, soit sur l'agrégation du volume de coût. Cependant, elles agrègent généralement l'un ou l'autre, mais pas les deux simultanément, bien que leur agrégation conjointe pourrait mutuellement renforcer leur efficacité en fournissant des informations que l'une possède et que l'autre manque, à savoir des informations structurelles ou sémantiques d'une image, ou la similarité de correspondance au niveau des pixels. Dans ce travail, nous proposons un nouveau réseau basé sur les Transformers qui entrelace ces deux formes d'agrégation de manière à exploiter leurs informations complémentaires. Plus précisément, nous concevons une couche d'auto-attention qui utilise le descripteur pour clarifier le volume de coût bruyant et qui utilise également le volume de coût pour agréger les caractéristiques d'une manière qui favorise une correspondance précise. Une couche d'attention croisée subséquente effectue une agrégation supplémentaire conditionnée par les descripteurs des deux images et aidée par les sorties agrégées des couches précédentes. Nous améliorons encore davantage les performances grâce à un traitement hiérarchique, dans lequel les agrégations à un niveau plus grossier guident celles à un niveau plus fin. Nous évaluons l'efficacité de la méthode proposée sur des tâches de correspondance dense et obtenons des performances de pointe sur tous les principaux benchmarks. Des études ablatives exhaustives sont également fournies pour valider nos choix de conception.