HyperAIHyperAI
il y a 2 mois

MVSNet : Inférence de profondeur pour la stéréoscopie multi-vue non structurée

Yao Yao; Zixin Luo; Shiwei Li; Tian Fang; Long Quan
MVSNet : Inférence de profondeur pour la stéréoscopie multi-vue non structurée
Résumé

Nous présentons une architecture de deep learning de bout en bout pour l'inférence de cartes de profondeur à partir d'images multivues. Dans ce réseau, nous extrayons d'abord des caractéristiques visuelles profondes des images, puis nous construisons le volume de coût 3D sur le frustum de la caméra de référence grâce au warp d'homographie différentiable. Ensuite, nous appliquons des convolutions 3D pour régulariser et régresser la carte de profondeur initiale, qui est ensuite affinée avec l'image de référence pour générer la sortie finale. Notre cadre s'adapte de manière flexible à des entrées multivues arbitraires en utilisant une métrique de coût basée sur la variance qui mappe plusieurs caractéristiques en une seule caractéristique de coût. Le MVSNet proposé est démontré sur le grand ensemble de données DTU indoor (large-scale indoor DTU dataset). Avec un post-traitement simple, notre méthode non seulement dépasse significativement les méthodes précédentes les plus performantes, mais est également plusieurs fois plus rapide en temps d'exécution. Nous évaluons également MVSNet sur l'ensemble de données complexe outdoor Tanks and Temples (complex outdoor Tanks and Temples dataset), où notre méthode se classe première avant le 18 avril 2018 sans aucun ajustement fin, montrant ainsi la forte capacité de généralisation du MVSNet.