Metric3Dv2: Zero-shot 메트릭 깊이 및 표면 법선 추정을 위한 유연한 단안 기하 기반 모델

우리는 단일 이미지로부터 제로샷 메트릭 깊이 및 표면 법선 추정을 위한 기하학적 기초 모델인 Metric3D v2를 소개한다. 이는 메트릭 3D 복원에 있어 핵심적인 기술이다. 깊이와 법선은 기하학적으로 관련되어 있으며 상호 보완적인 관계에 있지만, 각각 고유한 도전 과제를 안고 있다. 최신의 단안 깊이 추정 기법들은 아핀 불변 깊이를 학습함으로써 제로샷 일반화 성능을 달성하지만, 현실 세계의 메트릭을 재구성할 수는 없다. 한편, 최신의 법선 추정 기법들은 대규모 레이블 데이터의 부족으로 인해 제로샷 성능이 제한적이다. 이러한 문제들을 해결하기 위해, 메트릭 깊이 추정과 표면 법선 추정에 대한 새로운 솔루션을 제안한다. 메트릭 깊이 추정을 위해, 제로샷 단안 모델의 핵심은 다양한 카메라 모델과 대규모 데이터 학습을 통해 메트릭 모호성을 해결하는 데 있음을 보여준다. 이를 위해 표준 카메라 공간 변환 모듈을 제안하며, 이는 모호성 문제를 명시적으로 해결할 수 있으며 기존 단안 모델에 간편하게 통합할 수 있다. 표면 법선 추정을 위해, 메트릭 깊이로부터 다양한 데이터 지식을 추출할 수 있는 깊이-법선 공동 최적화 모듈을 제안한다. 이를 통해 법선 추정기는 단순한 법선 레이블을 넘어서 더 풍부한 지식을 학습할 수 있다. 이러한 모듈을 갖춘 깊이-법선 모델은 수백만 장의 이미지와 수천 가지 카메라 모델에서 수집된 다양한 타입의 레이블을 활용해 안정적으로 학습이 가능하며, 미지의 카메라 설정을 가진 실외 이미지에 대해 제로샷 일반화 성능을 발휘한다. 본 방법을 통해 인터넷에서 무작위로 수집된 이미지에서도 정확한 메트릭 3D 구조를 복원할 수 있게 되었으며, 단일 이미지 기반의 타당한 메트로로지(측량학)의 실현 가능성을 열었다. 본 연구의 프로젝트 페이지는 https://JUGGHM.github.io/Metric3Dv2 에서 확인할 수 있다.