DELTAS : Estimation de la profondeur par apprentissage de la triangulation et densification de points épars
La stéréoscopie multi-vue (MVS) représente l'équilibre idéal entre la précision de la détection de profondeur active et la praticité de l'estimation de profondeur monoculaire. Les approches basées sur le volume de coût utilisant des réseaux neuronaux convolutifs 3D (CNNs) ont considérablement amélioré la précision des systèmes MVS. Cependant, cette précision s'accompagne d'un coût computationnel élevé qui entrave leur adoption pratique. Contrairement aux approches basées sur le volume de coût, nous proposons une méthode efficace d'estimation de profondeur en procédant par trois étapes : (a) détecter et évaluer les descripteurs pour les points d'intérêt, (b) apprendre à faire correspondre et à trianguler un petit ensemble de points d'intérêt, puis (c) densifier cet ensemble épars de points 3D en utilisant des CNNs. Un réseau end-to-end effectue efficacement ces trois étapes au sein d'un cadre d'apprentissage profond et est formé avec une supervision intermédiaire à partir d'images 2D et de géométrie 3D, ainsi qu'une supervision de profondeur. De manière cruciale, notre première étape complète l'estimation de pose grâce à la détection des points d'intérêt et à l'apprentissage des descripteurs. Nous démontrons des résultats d'avant-garde en estimation de profondeur avec une charge computationnelle moindre pour différentes longueurs de scène. De plus, notre méthode se généralise bien à de nouveaux environnements et les descripteurs produits par notre réseau sont comparables aux meilleures méthodes de référence. Le code est disponible sur https://github.com/magicleap/DELTAS.