HyperAIHyperAI
il y a 17 jours

CroCo v2 : Pré-entraînement amélioré pour la complétion multi-vue en correspondance stéréo et flux optique

Philippe Weinzaepfel, Thomas Lucas, Vincent Leroy, Yohann Cabon, Vaibhav Arora, Romain Brégier, Gabriela Csurka, Leonid Antsfeld, Boris Chidlovskii, Jérôme Revaud
CroCo v2 : Pré-entraînement amélioré pour la complétion multi-vue en correspondance stéréo et flux optique
Résumé

Malgré leurs performances impressionnantes sur des tâches downstream de haut niveau, les méthodes d’apprentissage auto-supervisé n’ont pas encore pleinement atteint leur potentiel dans les tâches de vision géométrique dense, telles que le recalage stéréo ou le flux optique. L’application de concepts auto-supervisés, comme la discrimination d’instances ou le modèle d’image masquée, aux tâches géométriques constitue un domaine de recherche actif. Dans ce travail, nous nous appuyons sur le cadre récent de complétion croisée (cross-view completion), une variante du modèle d’image masquée qui exploite une deuxième vue provenant de la même scène, ce qui la rend particulièrement adaptée aux tâches downstream binoculaires. Cependant, l’application de ce concept reste limitée à ce jour selon au moins deux axes : (a) la difficulté de collecter des paires d’images réelles du monde réel — dans la pratique, seules des données synthétiques ont été utilisées — et (b) le manque de généralisation des transformers classiques aux tâches downstream denses, où l’information de position relative est plus significative que la position absolue. Nous explorons trois axes d’amélioration. Premièrement, nous proposons une méthode permettant de collecter à grande échelle des paires d’images réelles du monde réel. Deuxièmement, nous expérimentons avec des embeddings de position relative, et montrons qu’ils permettent aux transformers visuels de réaliser des performances nettement supérieures. Troisièmement, nous élargissons les architectures basées sur les transformers visuels pour la complétion croisée, ce qui devient possible grâce à l’utilisation d’importants volumes de données. Grâce à ces améliorations, nous démontrons pour la première fois que des résultats de pointe sur le recalage stéréo et le flux optique peuvent être atteints sans recourir à des techniques classiques spécifiques à la tâche, telles que le volume de corrélation, l’estimation itérative, le warp d’images ou le raisonnement multi-échelle, ouvrant ainsi la voie vers des modèles universels de vision.

CroCo v2 : Pré-entraînement amélioré pour la complétion multi-vue en correspondance stéréo et flux optique | Articles de recherche récents | HyperAI