Metric3D: 단일 이미지에서의 제로샷 메트릭 3D 예측을 향해

이미지에서 정확한 3차원 장면을 재구성하는 것은 오랫동안 지속된 비전 과제이다. 단일 이미지 재구성 문제의 불안정성(ill-posedness)으로 인해, 대부분의 잘 정립된 방법들은 다중 시점 기하학을 기반으로 설계되어 왔다. 최신 기술(SOTA)의 단안(metric) 깊이 추정 방법은 단일 카메라 모델만을 처리할 수 있으며, 메트릭 불확실성(metric ambiguity)으로 인해 혼합 데이터 학습이 불가능하다. 한편, 대규모 혼합 데이터셋으로 학습된 최신 단안 방법들은 아핀 불변 깊이(affine-invariant depths)를 학습함으로써 제로샷 일반화(zero-shot generalization)를 달성하지만, 실제 세계의 메트릭을 복원할 수는 없다. 본 연구에서는 제로샷 단안 메트릭 깊이 모델의 핵심이 대규모 데이터 학습과 다양한 카메라 모델로부터의 메트릭 불확실성 해결의 조합에 있음을 보여준다. 우리는 명시적으로 메트릭 불확실성을 해결할 수 있는 표준화된 카메라 공간 변환 모듈( canonical camera space transformation module)을 제안한다. 이 모듈은 기존 단안 모델에 간편하게 통합될 수 있으며, 수백만 장의 이미지와 수천 가지 카메라 모델을 활용해 안정적인 학습이 가능하게 한다. 그 결과, 미리 알지 못하는 카메라 설정을 가진 실외 이미지에 대해 제로샷 일반화 성능을 달성할 수 있다. 실험 결과, 본 방법은 7개의 제로샷 벤치마크에서 SOTA 성능을 보였다. 특히, 본 방법은 제2회 단안 깊이 추정 챌린지에서 우승을 차지하였다. 본 방법은 무작위로 수집된 인터넷 이미지에서 실제 메트릭 3차원 구조를 정확히 복원할 수 있게 하여, 실현 가능한 단일 이미지 메트로로지(single-image metrology)의 길을 열었다. 이는 후속 작업들에 대한 잠재적 이점도 제공하며, 단순히 본 모델을 삽입함으로써 성능이 크게 향상될 수 있다. 예를 들어, 본 모델은 단안-SLAM의 스케일 드리프트(scale drift) 문제를 완화하여 고정밀 메트릭 스케일의 밀도 있는 맵핑을 가능하게 한다(그림 1 참조). 코드는 https://github.com/YvanYin/Metric3D 에서 공개되어 있다.