불확실성 인식을 활용한 적응형 얇은 볼륨 표현을 이용한 딥 스테레오

우리는 다중 RGB 이미지에서 3차원 재구성을 위한 불확실성 인식 연속 스테레오 네트워크(Uncertainty-aware Cascaded Stereo Network, UCS-Net)를 제시합니다. 다중 뷰 스테레오(Multi-view Stereo, MVS)는 다중 뷰 이미지를 사용하여 세밀한 장면 기하학을 재구성하는 것을 목표로 합니다. 이전의 학습 기반 MVS 방법들은 각 평면에서 고정된 깊이 가설을 사용하여 플레인 스윕 볼륨(plane sweep volumes)을 통해 뷰별 깊이를 추정하였습니다. 이 방법은 원하는 정확도를 얻기 위해 밀집된 평면 샘플링이 일반적으로 필요하며, 고해상도 깊이를 달성하기가 매우 어렵습니다. 대조적으로, 우리는 적응형 얇은 볼륨(Adaptive Thin Volumes, ATVs)을 제안합니다. ATV에서는 각 평면의 깊이 가설이 공간적으로 변동하며, 이는 이전 픽셀별 깊이 예측의 불확실성에 적응합니다.우리의 UCS-Net은 세 단계로 구성됩니다: 첫 번째 단계에서는 작은 표준 플레인 스윕 볼륨을 처리하여 저해상도 깊이를 예측합니다. 그 다음 두 단계에서는 두 개의 ATV를 사용하여 더 높은 해상도와 더 높은 정확도로 깊이를 정교화합니다. 우리의 ATV는 몇 개의 평면만으로 구성되어 있지만, 학습된 작은 구간 내에서 로컬 깊이 범위를 효율적으로 분할합니다. 특히, 우리는 분산 기반 불확실성 추정치(variance-based uncertainty estimates)를 사용하여 ATV를 적응적으로 구성하는 방법을 제안합니다. 이 미분 가능한 과정은 합리적이고 세밀한 공간 분할을 도입합니다.우리의 다단계 프레임워크는 점점 증가하는 깊이 해상도와 정밀성을 통해 광범위한 장면 공간을 점진적으로 세분화하는데, 이를 통해 거칠게부터 세밀하게(high completeness and accuracy in a coarse-to-fine fashion) 장면 재구성이 가능해집니다. 우리는 다양한 도전적인 데이터셋에서 최신 벤치마크(state-of-the-art benchmarks)와 비교하여 우리 방법론이 우수한 성능을 보임을 입증하였습니다.