Repenser l'estimation de profondeur pour le stéréo multi-vue : une représentation unifiée

L’estimation de profondeur est traitée comme un problème de régression ou de classification dans les méthodes existantes basées sur l’apprentissage pour la stéréo multi-vue. Bien que ces deux représentations aient récemment démontré leurs performances remarquables, elles présentent encore des inconvénients évidents : les méthodes de régression ont tendance à surajuster en raison du volume de coût appris de manière indirecte, tandis que les méthodes de classification ne peuvent pas prédire directement une profondeur exacte en raison de leur prédiction discrète. Dans cet article, nous proposons une nouvelle représentation, nommée Unification, visant à unifier les avantages de la régression et de la classification. Elle permet de contraindre directement le volume de coût comme les méthodes de classification, tout en permettant une prédiction de profondeur sub-pixelaire, à la manière des méthodes de régression. Pour exploiter pleinement le potentiel de cette unification, nous concevons une nouvelle fonction de perte, appelée Unified Focal Loss, plus uniforme et plus raisonnable, afin de faire face au défi de déséquilibre des échantillons. En combinant ces deux modules délestinés, nous proposons un cadre progressif, que nous appelons UniMVSNet. Les résultats classés en tête sur les deux benchmarks DTU et Tanks and Temples confirment que notre modèle non seulement obtient les meilleures performances, mais possède également une excellente capacité de généralisation.