Command Palette
Search for a command to run...
Exploration de l’efficacité des Vision Transformers pour l’estimation de profondeur monocabulaire auto-supervisée
Exploration de l’efficacité des Vision Transformers pour l’estimation de profondeur monocabulaire auto-supervisée
Ilya Makarov Aleksei Karpov
Résumé
L'estimation de profondeur constitue une tâche cruciale pour la génération de cartes de profondeur, l’un des composants les plus importants dans les applications de réalité augmentée (RA) et d’autres domaines. Toutefois, les appareils les plus couramment utilisés pour la RA et les smartphones ne disposent que de capteurs de profondeur épars, aux méthodes d’acquisition de profondeur vraie étalon différentes. Par conséquent, les modèles d’estimation de profondeur capables de garantir des performances fiables pour les tâches ultérieures en RA ne peuvent être entraînés de manière robuste que par apprentissage auto-supervisé basé sur des informations provenant de caméras. Les travaux antérieurs dans ce domaine se concentrent principalement sur des modèles auto-supervisés reposant sur des architectures entièrement convolutionnelles, sans tenir compte du contexte spatial global. Dans cet article, nous exploitons les architectures de vision transformer pour l’estimation de profondeur monocabine auto-supervisée et proposons VTDepth, un modèle fondé sur les vision transformer, offrant une solution au problème du contexte spatial global. Nous comparons diverses combinaisons d’architectures convolutionnelles et transformer pour l’estimation de profondeur auto-supervisée, et montrons que la meilleure combinaison consiste en un encodeur basé sur un transformer et un décodeur convolutionnel. Nos expériences démontrent l’efficacité de VTDepth pour l’estimation de profondeur auto-supervisée. L’ensemble de nos modèles atteint des performances de pointe dans le cadre de l’apprentissage auto-supervisé sur les jeux de données NYUv2 et KITTI. Le code source est disponible à l’adresse suivante : https://github.com/ahbpp/VTDepth.