17일 전

ECoDepth: 단일 이미지 깊이 추정을 위한 확산 모델의 효과적 조건부 처리

Suraj Patni, Aradhye Agarwal, Chetan Arora
ECoDepth: 단일 이미지 깊이 추정을 위한 확산 모델의 효과적 조건부 처리
초록

파라럭스 정보가 부족한 상황에서, 학습 기반 단일 이미지 깊이 추정(SIDE) 모델은 이미지 내의 그림자와 맥락 정보에 크게 의존한다. 이러한 간단함은 매력적이지만, 이러한 모델을 효과적으로 학습시키기 위해서는 크고 다양한 데이터셋이 필요하며, 이러한 데이터셋을 확보하는 것은 어렵다. 기존 연구에 따르면, CLIP과 같은 사전 학습된 기반 모델의 임베딩을 활용하면 여러 응용 분야에서 제로샷 전이(zero-shot transfer) 성능이 향상됨이 입증되었다. 본 논문에서는 이와 유사한 아이디어를 바탕으로, 사전 학습된 ViT 모델로부터 생성된 전역 이미지 사전 지식(global image priors)을 활용하여 보다 정교한 맥락 정보를 제공하는 방식을 탐구한다. 우리는 사전에 대규모 데이터셋으로 학습된 ViT 모델의 임베딩 벡터가, 일반적으로 사용되는 가상 이미지 설명문(pseudo image captions) 생성 후 CLIP 기반 텍스트 임베딩을 활용하는 방식보다 SIDE 작업에 더 풍부한 관련 정보를 포착할 수 있다고 주장한다. 본 아이디어를 바탕으로, ViT 임베딩에 조건부로 작동하는 확산(diffusion) 백본을 사용하는 새로운 SIDE 모델을 제안한다. 제안한 모델은 NYUv2 데이터셋에서 기존 최고 성능(SOTA) 모델인 VPD 대비 Abs Rel 오차 0.069에서 0.059로 개선(14% 향상)하며, 새로운 SOTA 성능을 달성하였다. 또한 KITTI 데이터셋에서는 기존 SOTA 모델인 GEDepth 대비 Sq Rel 오차 0.142에서 0.139로 개선(2% 향상)하였다. NYUv2 데이터셋으로 학습된 모델을 사용한 제로샷 전이 실험에서는, Sun-RGBD, iBims1, DIODE, HyperSim 데이터셋에 대해 각각 NeWCRFs 대비 평균 상대적 개선률이 (20%, 23%, 81%, 25%)를 기록하였으며, ZoeDepth 대비는 (16%, 18%, 45%, 9%)의 개선을 보였다. 프로젝트 페이지는 https://ecodepth-iitd.github.io 에서 확인할 수 있다.

ECoDepth: 단일 이미지 깊이 추정을 위한 확산 모델의 효과적 조건부 처리 | 최신 연구 논문 | HyperAI초신경