HyperAIHyperAI
il y a 2 mois

Unification de l'estimation du flot, de la stéréoscopie et de la profondeur

Haofei Xu; Jing Zhang; Jianfei Cai; Hamid Rezatofighi; Fisher Yu; Dacheng Tao; Andreas Geiger
Unification de l'estimation du flot, de la stéréoscopie et de la profondeur
Résumé

Nous présentons une formulation et un modèle unifiés pour trois tâches de mouvement et de perception 3D : le flux optique, l'appariement stéréoscopique rectifié et l'estimation de profondeur stéréoscopique non rectifiée à partir d'images posées. Contrairement aux architectures spécialisées précédentes pour chaque tâche spécifique, nous formulons les trois tâches comme un problème unifié d'appariement de correspondances denses, qui peut être résolu par un seul modèle en comparant directement les similarités des caractéristiques. Une telle formulation nécessite des représentations de caractéristiques discriminantes, que nous obtenons en utilisant un Transformer, plus particulièrement le mécanisme d'attention croisée. Nous démontrons que l'attention croisée permet l'intégration des connaissances provenant d'une autre image grâce aux interactions transversales, ce qui améliore considérablement la qualité des caractéristiques extraites. Notre modèle unifié permet naturellement le transfert inter-tâches puisque l'architecture du modèle et ses paramètres sont partagés entre les tâches. Nous surpassons RAFT avec notre modèle unifié sur le jeu de données Sintel difficile, et notre modèle final qui utilise quelques étapes supplémentaires de raffinement spécifiques à chaque tâche égale ou dépasse les méthodes récentes de pointe sur 10 jeux de données populaires de flux, stéréoscopie et profondeur, tout en étant plus simple et efficace en termes de conception du modèle et de vitesse d'inférence.