HyperAIHyperAI
il y a 2 mois

Réseau de Recherche Binaire Généralisé pour une Stéréoscopie Multi-Vue Très Efficace

Zhenxing Mi; Di Chang; Dan Xu
Réseau de Recherche Binaire Généralisé pour une Stéréoscopie Multi-Vue Très Efficace
Résumé

La stéréoscopie multi-vue (MVS) avec des paramètres de caméra connus est essentiellement un problème de recherche unidimensionnelle au sein d'une plage de profondeur valide. Les méthodes récentes basées sur l'apprentissage profond pour la MVS procèdent généralement à un échantillonnage dense des hypothèses de profondeur dans cette plage, puis construisent des volumes de coût 3D extrêmement gourmands en mémoire pour prédire la profondeur. Bien que les stratégies d'échantillonnage grossier-fin atténuent ce problème de surcharge jusqu'à un certain point, l'efficacité de la MVS reste un défi ouvert. Dans ce travail, nous proposons une nouvelle méthode pour une MVS hautement efficace qui réduit considérablement l'empreinte mémoire tout en améliorant clairement les performances de prédiction de profondeur par rapport aux méthodes actuelles. Nous examinons quelle stratégie de recherche peut être raisonnablement optimale pour la MVS, en tenant compte à la fois de l'efficacité et de l'efficience. Nous formulons d'abord la MVS comme un problème de recherche binaire, et proposons en conséquence un réseau de recherche binaire généralisé pour la MVS. Plus précisément, à chaque étape, le domaine de profondeur est divisé en 2 intervalles avec un intervalle supplémentaire tolérant une erreur sur chaque côté. Une classification est effectuée pour identifier quel intervalle contient la véritable profondeur. Nous avons également conçu trois mécanismes pour respectivement gérer les erreurs de classification, traiter les échantillons hors plage et réduire la mémoire nécessaire à l'entraînement. Cette nouvelle formulation permet à notre méthode d'échantillonner très peu d'hypothèses de profondeur à chaque étape, ce qui est extrêmement efficace en termes de mémoire, et facilite également grandement la convergence rapide lors de l'entraînement. Des expériences menées sur des benchmarks compétitifs montrent que notre méthode atteint une précision state-of-the-art avec beaucoup moins de mémoire. En particulier, notre méthode obtient un score global de 0,289 sur le jeu de données DTU et se classe première sur le jeu de données avancé Tanks and Temples parmi toutes les méthodes basées sur l'apprentissage. Les modèles entraînés et le code seront mis à disposition sur https://github.com/MiZhenxing/GBi-Net.

Réseau de Recherche Binaire Généralisé pour une Stéréoscopie Multi-Vue Très Efficace | Articles de recherche récents | HyperAI