CATs++ : Renforcer l’agrégation de coût grâce aux convolutions et aux Transformers

L’agrégation des coûts est un processus essentiel dans les tâches de correspondance d’images, visant à dissiper l’ambiguïté des scores de correspondance bruités. Les méthodes existantes abordent généralement ce problème à l’aide de techniques manuelles ou basées sur des réseaux de neurones convolutifs (CNN), qui souffrent soit d’une faible robustesse aux déformations sévères, soit des limites inhérentes aux CNN — notamment leur incapacité à distinguer les correspondances incorrectes en raison de champs réceptifs limités et d’une inadaptabilité. Dans cet article, nous introduisons CATs (Cost Aggregation with Transformers), une méthode qui aborde ce défi en explorant le consensus global au sein de la carte de corrélation initiale, grâce à des conceptions architecturales permettant d’exploiter pleinement les champs réceptifs globaux offerts par le mécanisme d’attention auto-attention. Par ailleurs, afin de réduire certaines limitations que CATs pourrait rencontrer — notamment les coûts computationnels élevés liés à l’utilisation d’un transformer standard, dont la complexité croît avec la taille des dimensions spatiales et des caractéristiques, limitant ainsi son application à des résolutions restreintes et entraînant des performances plutôt limitées — nous proposons CATs++, une extension de CATs. Nos méthodes proposées surpassent largement les états de l’art antérieurs, établissant un nouveau record sur tous les benchmarks, notamment PF-WILLOW, PF-PASCAL et SPair-71k. Nous fournissons également des études ablatives et analyses approfondies.