16일 전

Depth Anything: 대규모 레이블 없는 데이터의 힘을 해방하다

Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao
Depth Anything: 대규모 레이블 없는 데이터의 힘을 해방하다
초록

이 연구는 강력한 단안 깊이 추정을 위한 실용적인 솔루션인 Depth Anything을 제안한다. 새로운 기술 모듈을 추구하지 않고, 어떠한 이미지든 어떠한 환경에서도 처리할 수 있는 간단하면서도 강력한 기초 모델을 구축하는 것을 목표로 한다. 이를 위해 데이터셋을 확장하기 위해 대규모의 레이블이 없는 데이터(~62M)를 수집하고 자동으로 레이블링하는 데이터 엔진을 설계하였다. 이는 데이터 커버리지의 현저한 확대를 가져오며, 일반화 오차를 감소시키는 데 기여한다. 데이터 확장을 가능하게 하는 두 가지 간단하면서도 효과적인 전략을 탐구하였다. 첫째, 데이터 증강 도구를 활용하여 더 도전적인 최적화 목표를 설정함으로써 모델이 보다 적극적으로 추가적인 시각적 지식을 탐색하고 강건한 표현을 학습하도록 유도한다. 둘째, 사전 훈련된 인코더로부터 � бог rich한 의미적 사전 지식을 모델이 계승하도록 유도하는 보조적 감독 기법을 개발하였다. 제안된 모델의 제로샷(zero-shot) 능력을 널리 평가하였으며, 공개된 6개의 데이터셋과 임의로 촬영된 사진을 포함한 다양한 시나리오에서 뛰어난 일반화 성능을 입증하였다. 또한 NYUv2와 KITTI에서의 메트릭 깊이 정보를 활용한 미세 조정을 통해 새로운 최고 성능(SOTA)을 달성하였다. 개선된 깊이 모델은 더 나은 깊이 조건부 ControlNet의 구현에도 기여한다. 본 연구의 모델은 https://github.com/LiheYoung/Depth-Anything 에서 공개된다.

Depth Anything: 대규모 레이블 없는 데이터의 힘을 해방하다 | 최신 연구 논문 | HyperAI초신경