단안 깊이 추정을 위한 확산 기반 이미지 생성기의 재사용

단안 깊이 추정은 컴퓨터 비전의 기초적인 과제이다. 단일 이미지에서 3차원 깊이를 복원하는 것은 기하학적으로 부정확한 문제이며, 장면 이해가 필요하므로, 딥러닝의 부상이 이 분야에서 획기적인 진전을 이끌었다는 것은 놀라운 일이 아니다. 최근 단안 깊이 추정기의 놀라운 성과는 모델의 표현 능력 증가와 함께 나타났으며, 비교적 제한적인 CNN 아키텍처에서 대규모 트랜스포머 구조로의 발전을 반영하고 있다. 그러나 단안 깊이 추정기는 익숙하지 않은 콘텐츠나 레이아웃을 가진 이미지를 다룰 때 여전히 어려움을 겪는다. 이는 학습 중에 접한 데이터에 의해 시각 세계에 대한 지식이 제한적이며, 새로운 도메인에 대한 제로샷 일반화(Zero-shot generalization)에 직면했을 때 도전받기 때문이다. 이러한 문제를 해결하기 위해, 최근의 생성형 확산 모델(Generative Diffusion Models)이 포착한 광범위한 사전 지식(prior)이 더 나은, 더 일반화 가능한 깊이 추정을 가능하게 할 수 있는지 탐구하고자 했다. 우리는 스테이블 디퓨전(Stable Diffusion)에서 유도된 아핀 불변(Affine-invariant) 단안 깊이 추정 방법인 Marigold을 제안한다. 이 방법은 풍부한 사전 지식을 유지하면서도, 단일 GPU에서 합성 데이터만을 사용해 며칠 내에 미세 조정(fine-tuning)이 가능하다. Marigold은 다양한 데이터셋에서 최신 기술 수준(SOTA)의 성능을 제공하며, 특정 경우에서 20% 이상의 성능 향상을 기록했다. 프로젝트 페이지: https://marigoldmonodepth.github.io