
초록
우리는 대규모 비전 모델이 생성한 가상 레이블(퍼지 레이블)로부터의 지도 정보를 통합한 효율적인 자기지도 학습 기반 단안 깊이 추정 프레임워크인 NimbleD를 소개한다. 이 프레임워크는 카메라 내부 파라미터(camera intrinsics)를 요구하지 않으며, 공개된 영상 데이터를 기반으로 대규모 사전 학습이 가능하다. 간단하면서도 효과적인 학습 전략을 통해, 추가적인 부담 없이 빠르고 가벼운 모델의 성능을 크게 향상시켜, 최신 자기지도 학습 기반 단안 깊이 추정 모델과 경쟁 가능한 성능을 달성할 수 있다. 이 기술적 진보는 낮은 지연 시간을 요구하는 가상현실(VR) 및 증강현실(AR) 응용 분야에 특히 유리하다. 소스 코드, 모델 가중치 및 감사의 말씀은 https://github.com/xapaxca/nimbled 에서 확인할 수 있다.