HyperAIHyperAI
il y a 17 jours

TransMVSNet : Réseau de stéréo multi-vues à prise en compte du contexte global basé sur les Transformers

Yikang Ding, Wentao Yuan, Qingtian Zhu, Haotian Zhang, Xiangyue Liu, Yuanjiang Wang, Xiao Liu
TransMVSNet : Réseau de stéréo multi-vues à prise en compte du contexte global basé sur les Transformers
Résumé

Dans cet article, nous présentons TransMVSNet, fruit de notre exploration de la correspondance de caractéristiques dans le cadre de la stéréo à plusieurs vues (MVS). Nous réinterprétons la tâche MVS à sa nature fondamentale de correspondance de caractéristiques, et proposons ainsi un puissant Transformateur de Correspondance de Caractéristiques (FMT) qui exploite les mécanismes d’attention intra-(auto-) et inter-(croisée) afin d’agréger des informations contextuelles à longue portée à l’intérieur et entre les images. Pour faciliter une meilleure adaptation du FMT, nous introduisons un module de Champ de Réception Adaptatif (ARF) afin d’assurer une transition fluide des champs de vision des caractéristiques, et mettons en place une voie de caractéristiques pour transmettre les caractéristiques transformées ainsi que les gradients à travers différentes échelles. En outre, nous utilisons une corrélation de caractéristiques par paires pour mesurer la similarité entre les caractéristiques, et adoptons une perte focalisée réduisant l’ambiguïté afin de renforcer la supervision. À notre connaissance, TransMVSNet constitue la première tentative visant à intégrer les Transformers dans la tâche de MVS. En conséquence, notre méthode atteint des performances de pointe sur le jeu de données DTU, le benchmark Tanks and Temples, ainsi que sur le jeu de données BlendedMVS. Le code de notre méthode sera rendu disponible à l’adresse suivante : https://github.com/MegviiRobot/TransMVSNet.

TransMVSNet : Réseau de stéréo multi-vues à prise en compte du contexte global basé sur les Transformers | Articles de recherche récents | HyperAI