11일 전

SCIPaD: 비감독 자세-깊이 동시 학습에 공간적 단서 통합하기

Yi Feng, Zizhan Guo, Qijun Chen, Rui Fan
SCIPaD: 비감독 자세-깊이 동시 학습에 공간적 단서 통합하기
초록

비지도 단일 카메라 깊이 추정 프레임워크는 자율주행 분야에서 희망적인 성능을 보여주고 있다. 그러나 기존의 방법들은 주로 단순한 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하여 자가 운동(Ego-motion)을 복원하는 데 의존하고 있으며, 이는 동적이고 복잡한 실제 환경에서 정밀한 카메라 자세를 추정하는 데 어려움을 겪는다. 이러한 정확하지 않은 카메라 자세 추정은 광학적 재구성 성능을 필연적으로 저하시키며, 잘못된 감독 신호를 깊이 추정 네트워크에 제공함으로써 오류를 유발할 수 있다. 본 논문에서는 공간적 정보를 활용하여 비지도 깊이-자세 공동 학습을 가능하게 하는 새로운 접근법인 SCIPaD(Selective Confidence-aware Integration of Positional clues for Unsupervised Depth-Pose Learning)를 제안한다. 구체적으로, 2D 특징의 위치 이동량과 그에 해당하는 신뢰도 수준을 추정할 수 있는 신뢰도 인식 특징 흐름 추정기(Confidence-aware Feature Flow Estimator)를 제안한다. 동시에, DepthNet에서 생성된 가상 3D 점군(Pseudo 3D Point Clouds)과 2D 특징 흐름을 통합하여 동질적인 위치 표현(Homogeneous Positional Representations)을 생성하는 위치 정보 집계기(Positional Clue Aggregator)를 도입한다. 마지막으로, 계층적인 위치 임베딩 주입기(Hierarchical Positional Embedding Injector)를 제안하여 공간적 정보를 선택적으로 의미 특징에 주입함으로써 강건한 카메라 자세 복원을 실현한다. 광범위한 실험과 분석을 통해 제안한 모델이 기존 최첨단 방법들에 비해 우수한 성능을 보임을 입증하였다. 특히 KITTI 오도메트리(KITTI Odometry) 데이터셋에서 카메라 자세 추정 과제에서 평균 이동 오차는 22.2%, 평균 각도 오차는 34.8% 감소하는 성과를 달성하였다. 본 연구의 소스 코드는 \url{https://mias.group/SCIPaD}에서 공개되어 있다.

SCIPaD: 비감독 자세-깊이 동시 학습에 공간적 단서 통합하기 | 최신 연구 논문 | HyperAI초신경