Représentation stéréoscopique profonde utilisant un volume mince adaptatif avec prise en compte de l'incertitude

Nous présentons le réseau stéréo en cascade avec prise en compte de l'incertitude (UCS-Net) pour la reconstruction 3D à partir de multiples images RGB. La stéréoscopie multivue (MVS) vise à reconstruire la géométrie de scène à grain fin à partir d'images multivues. Les méthodes MVS basées sur l'apprentissage précédentes estiment la profondeur par vue en utilisant des volumes de balayage plan avec une hypothèse de profondeur fixe sur chaque plan ; cela nécessite généralement un échantillonnage dense de plans pour obtenir la précision souhaitée, et il est très difficile d'atteindre une profondeur haute résolution. En revanche, nous proposons des volumes fins adaptatifs (ATVs) ; dans un ATV, l'hypothèse de profondeur de chaque plan varie spatialement, s'adaptant aux incertitudes des prédictions de profondeur par pixel précédentes. Notre UCS-Net comporte trois étapes : la première étape traite un petit volume de balayage plan standard pour prédire une profondeur basse résolution ; deux ATVs sont ensuite utilisés dans les étapes suivantes pour affiner la profondeur avec une résolution et une précision plus élevées. Notre ATV ne se compose que d'un petit nombre de plans ; cependant, il partitionne efficacement les intervalles locaux de profondeur au sein d'intervalles appris petits. Plus particulièrement, nous proposons d'utiliser des estimations d'incertitude basées sur la variance pour construire adaptativement les ATVs ; ce processus différentiable introduit une partition spatiale raisonnable et à grain fin. Notre cadre multicouche subdivise progressivement l'espace scénique vaste avec une résolution et une précision croissantes en profondeur, permettant ainsi une reconstruction de scène complète et précise selon une approche du grossier au fin. Nous démontrons que notre méthode atteint des performances supérieures comparées aux références actuelles sur divers jeux de données difficiles.