2달 전

마스킹을 통한 자기 지도 단일 뷰 깊이 추정 개선

Schellevis, Maarten
초록

단일 뷰 깊이 추정 모델은 뷰 합성을 감독 신호로 사용하는 자기 지도 방식으로 비디오 영상을 통해 end-to-end로 훈련될 수 있습니다. 이는 시간적으로 인접한 프레임에서 대상 비디오 프레임을 재구성하는 손실 기반의 깊이와 카메라 움직임을 예측하는 프레임워크를 통해 이루어집니다. 이 맥락에서, 가림(occlusion)은 대상 프레임에서는 관찰할 수 있지만 이미지 재구성에 사용된 프레임에서는 관찰할 수 없는 장면의 일부를 의미합니다. 이미지 재구성은 인접한 프레임에서 샘플링을 기반으로 하므로, 정의상 가려진 영역은 샘플링될 수 없으며, 따라서 재구성된 가려진 영역은 감독 신호를 왜곡시킵니다. arXiv:1806.01260에서 이전 연구에서는 재구성 오류에 따라 가림을 처리하였습니다; 각 픽셀 위치에서 가장 낮은 오류를 가진 재구성이 손실 함수에 포함되었습니다. 본 연구는 훈련 중 가림의 영향을 받는 지역만 무시함으로써 깊이 추정 모델의 성능 개선 여부를 확인하고자 합니다.본 연구에서는 훈련 시 가림으로 인해 재구성할 수 없는 지역을 특별히 무시하기 위해 사용되는 가림 마스크(occlusion mask)를 도입하였습니다. 가림 마스크는 완전히 예측된 깊이 정보를 기반으로 합니다. 우리는 가림 마스크를 통합한 두 가지 새로운 손실 함수 공식을 제안합니다. arXiv:1806.01260의 방법론과 구현은 우리의 수정 사항의 기초가 되며 실험의 베이스라인(base line) 역할을 합니다. 우리는 (i) KITTI 벤치마크에서 가림 마스크를 손실 함수에 통합하면 단일 이미지 깊이 예측 모델의 성능이 개선됨을 보였습니다. (ii) 오류에 따라 재구성을 선택하는 손실 함수들은 물체 움직임으로 인한 일부 재투영(reprojection) 오류를 무시할 수 있음을 입증하였습니다.

마스킹을 통한 자기 지도 단일 뷰 깊이 추정 개선 | 최신 연구 논문 | HyperAI초신경