11일 전

PrimeDepth: 안정적인 디퓨전 프리이미지 기반 효율적인 단일 카메라 깊이 추정

Denis Zavadski, Damjan Kalšan, Carsten Rother
PrimeDepth: 안정적인 디퓨전 프리이미지 기반 효율적인 단일 카메라 깊이 추정
초록

이 연구는 제로샷 단안 깊이 추정(Zero-shot Monocular Depth Estimation) 문제를 다룬다. 최근 이 분야에서 주목받는 발전은 스테이블 디퓨전(Stable Diffusion)과 같은 텍스트-이미지 기반 모델(Foundational Models)을 활용하려는 시도이다. 기반 모델은 풍부하고 일반적인 이미지 표현을 제공하므로, 깊이 추정 모델로 재구성하는 데 소량의 학습 데이터만으로도 매우 세밀한 깊이 맵을 예측하고, 우수한 일반화 능력을 갖출 수 있다. 그러나 현재까지 이러한 아이디어를 구현한 방법들은, 기반이 되는 반복적 노이즈 제거 과정(Iterative Denoising Process)으로 인해 테스트 시 매우 비효율적인 경향이 있다. 본 연구에서는 이 아이디어를 다른 방식으로 구현하며, 테스트 시 매우 효율적이면서도 디퓨전 기반 접근법의 장점을 유지하거나 심지어 향상시킬 수 있는 PrimeDepth라는 방법을 제안한다. 우리의 핵심 아이디어는 스테이블 디퓨전에서 단일 노이즈 제거 단계를 수행함으로써 풍부하지만 고정된(Frozen) 이미지 표현을 추출하는 것이다. 이 표현을 우리는 '프리이미지(Preimage)'라 부르며, 이후 하류 작업에 들어가기 전에 아키텍처적 인덕티브 바이어스(Inductive Bias)를 갖춘 리파인어 네트워크(refiner network)에 입력한다. 실험적으로 확인한 결과, PrimeDepth는 최첨단 디퓨전 기반 방법인 Marigold보다 두 자릿수(100배) 이상 빠르며, 도전적인 시나리오에서 더 뛰어난 안정성과 정량적으로 약간 우수한 성능을 보였다. 이를 통해 현재 최고의 데이터 기반 접근법인 Depth Anything에 비해 성능 격차를 크게 줄였으며, Depth Anything은 여전히 정량적으로 우수하지만, 더 세밀한 깊이 맵을 예측하지 못하고 학습에 20배 더 많은 레이블 데이터를 요구한다. 본 연구의 접근법은 상호 보완적인 성질을 지니고 있어, 단순한 PrimeDepth와 Depth Anything 예측치의 평균화만으로도 두 방법 모두를 초월하는 성능을 달성하며, 제로샷 단안 깊이 추정 분야의 새로운 최고 기준(State-of-the-Art)을 설정한다. 향후 데이터 기반 접근법 역시 본 연구의 프리이미지 기반 전처리를 통합함으로써 성능 향상을 기대할 수 있을 것이다.

PrimeDepth: 안정적인 디퓨전 프리이미지 기반 효율적인 단일 카메라 깊이 추정 | 최신 연구 논문 | HyperAI초신경