무문자 텍스처에 강건한 다중 시점 스테레오를 위한 적응형 패치 변형

최근 몇 년간 딥러닝 기반 접근법은 강력한 시각적 특징 추출 능력을 바탕으로 다중 시점 스테레오(Multi-view Stereo, MVS) 분야에서 뛰어난 성능을 보여왔다. 그러나 대부분의 학습 기반 방법은 대규모 무문자(텍스처리스) 영역을 처리할 때 만족스러운 결과를 얻기 위해 비용 볼륨(cost volume)을 구축하고 수용 영역(receptive field)을 극도로 확장해야 하며, 이로 인해 메모리 소비가 급격히 증가하는 문제가 발생한다. 이러한 문제를 해결하기 위해 메모리 효율성과 무문자 영역에 대한 강건성(내성)을 동시에 확보하기 위해, 본 연구는 딥러닝에서 유래한 변형 가능한 컨볼루션(deformable convolution)의 개념을 전통적인 PatchMatch 기반 방법에 혁신적으로 도입한다. 구체적으로, 매칭 불확실성(신뢰할 수 없는 픽셀이라 불림)을 가진 각 픽셀에 대해, 중심이 되는 패치를 적응적으로 변형하여 수용 영역을 확장함으로써 충분한 관련성이 있는 신뢰할 수 있는 픽셀(매칭 불확실성이 없는 픽셀)을 포함하도록 한다. 이 신뢰할 수 있는 픽셀들은 앵커(anchor) 역할을 하며, PatchMatch 수행 시 이 앵커 픽셀들에 의해 제약이 가해지기 때문에, 신뢰할 수 없는 픽셀의 매칭 비용이 정확한 깊이에서 전역 최소(global minimum)에 도달하게 되어 다중 시점 스테레오의 강건성이 크게 향상된다. 더 나아가, 보다 많은 앵커 픽셀을 탐지하여 보다 효과적인 패치 적응 변형을 가능하게 하기 위해, 최적화 과정이 진행됨에 따라 추정된 깊이의 수렴 여부를 확인함으로써 특정 픽셀의 매칭 불확실성을 평가하는 새로운 방법을 제안한다. 그 결과, 본 방법은 ETH3D 및 Tanks and Temples 데이터셋에서 최신 기준(SOTA) 성능을 달성하면서도 낮은 메모리 소비를 유지함으로써, 실용성과 정확성의 균형을 잘 이뤄냈다.