MVSFormer++ : Révéler le Diable dans les Détails du Transformer pour la Stéréo Multi-Vue

Les récentes avancées dans les méthodes de stéréoscopie multi-vue (MVS) basées sur l'apprentissage ont mis en avant les modèles à base de transformateurs avec des mécanismes d'attention. Cependant, les approches existantes n'ont pas suffisamment exploré l'influence profonde des transformeurs sur différents modules MVS, ce qui a entraîné des capacités limitées d'estimation de profondeur. Dans cet article, nous présentons MVSFormer++, une méthode qui optimise judicieusement les caractéristiques inhérentes de l'attention pour améliorer divers composants du pipeline MVS. Formellement, notre approche consiste à intégrer des informations inter-vues dans le modèle DINOv2 pré-entraîné afin de faciliter l'apprentissage MVS. De plus, nous utilisons différents mécanismes d'attention pour le codage des caractéristiques et la régularisation du volume de coût, en mettant l'accent respectivement sur l'agrégation des caractéristiques et l'agrégation spatiale. Nous révélons également que certains détails de conception peuvent avoir un impact considérable sur les performances des modules de transformateur en MVS, notamment le codage positionnel 3D normalisé, l'échelle d'attention adaptative et la position de la normalisation par couche. Des expériences exhaustives menées sur DTU, Tanks-and-Temples, BlendedMVS et ETH3D valident l'efficacité de la méthode proposée. Notamment, MVSFormer++ atteint des performances de pointe sur les benchmarks difficiles DTU et Tanks-and-Temples.Note : - "DTU" est généralement conservé tel quel en français.- "Tanks-and-Temples" est également conservé tel quel car c'est le nom d'un benchmark spécifique.- "BlendedMVS" est conservé tel quel car c'est le nom d'une base de données spécifique.- "ETH3D" est conservé tel quel car c'est le nom d'une base de données spécifique issue de l'Eidgenössische Technische Hochschule Zürich (ETH Zurich).