HyperAIHyperAI
il y a 2 mois

MVSFormer : Reconstruction stéréoscopique multi-vue par apprentissage de caractéristiques d'image robustes et profondeur basée sur la température

Chenjie Cao; Xinlin Ren; Yanwei Fu
MVSFormer : Reconstruction stéréoscopique multi-vue par apprentissage de caractéristiques d'image robustes et profondeur basée sur la température
Résumé

L'apprentissage de la représentation des caractéristiques est la clé de l'approche par apprentissage du stéréovision multi-vues (MVS). En tant qu'extraction commune des caractéristiques dans le MVS basé sur l'apprentissage, les réseaux pyramidaux de caractéristiques (FPN) traditionnels souffrent d'une représentation insuffisante des caractéristiques pour les zones réfléchissantes et sans texture, ce qui limite la généralisation du MVS. Même lorsqu'ils sont associés à des réseaux neuronaux convolutifs (CNN) pré-entraînés, les FPNs ne parviennent pas à résoudre ces problèmes. D'un autre côté, les transformateurs visuels (ViT) ont connu un succès remarquable dans de nombreuses tâches de vision 2D. Nous nous demandons donc si les ViT peuvent faciliter l'apprentissage des caractéristiques dans le MVS ? Dans cet article, nous proposons un réseau MVS amélioré par un ViT pré-entraîné appelé MVSFormer, capable d'apprendre des représentations de caractéristiques plus fiables grâce aux a priori informatifs fournis par le ViT. Le MVSFormer affiné avec des ViT hiérarchiques dotés de mécanismes d'attention efficaces peut réaliser une amélioration notable basée sur les FPNs. De plus, une version alternative du MVSFormer avec des poids ViT figés est également proposée. Cela réduit considérablement le coût d'entraînement tout en offrant une performance compétitive renforcée par la carte d'attention issue de l'auto-distillation pré-entraînée. Le MVSFormer peut être généralisé à diverses résolutions d'entrée grâce à une formation multi-échelle efficace renforcée par l'accumulation de gradients. Par ailleurs, nous discutons des avantages et inconvénients des méthodes MVS basées sur la classification et la régression, et proposons de les unifier au moyen d'une stratégie basée sur la température. Le MVSFormer atteint des performances de pointe sur le jeu de données DTU. Plus particulièrement, le MVSFormer occupe la première place sur les ensembles intermédiaire et avancé du classement très compétitif Tanks-and-Temples.

MVSFormer : Reconstruction stéréoscopique multi-vue par apprentissage de caractéristiques d'image robustes et profondeur basée sur la température | Articles de recherche récents | HyperAI