2달 전
시간 일관성을 활용한 실시간 비디오 깊이 추정
Haokui Zhang; Chunhua Shen; Ying Li; Yuanzhouhan Cao; Yu Liu; Youliang Yan

초록
최근, 딥 컨볼루션 신경망(CNNs)에서 얻은 계층적 특성을 활용함으로써 정적 이미지로부터의 깊이 추정 정확도가 크게 향상되었습니다. 정적 이미지와 비교할 때, 비디오 프레임 간에는 방대한 정보가 존재하며 이를 활용하여 깊이 추정 성능을 개선할 수 있습니다. 본 연구에서는 단일 카메라 비디오에서 시간적 정보를 활용하여 깊이를 추정하는 데 초점을 맞추고 있습니다. 특히, 컨볼루션 장기-단기 메모리(CLSTM)의 이점을 활용하여 새로운 공간-시간 CLSTM(ST-CLSTM) 구조를 제안합니다. 우리의 ST-CLSTM 구조는 연속된 비디오 프레임 간의 공간적 특성뿐만 아니라 시간적 상관관계/일관성을 거의 추가적인 계산 비용 없이 포착할 수 있습니다. 또한, 추정된 깊이 프레임 간의 시간적 일관성을 유지하기 위해 생성 적대학습 방식을 적용하고 시간 일관성 손실 함수를 설계하였습니다. 이 시간 일관성 손실 함수는 공간 손실과 결합되어 모델을 엔드투엔드 방식으로 업데이트합니다. 시간적 정보를 활용함으로써, 우리는 실시간으로 작동하며 시각적으로 만족스러운 결과를 생성하는 비디오 깊이 추정 프레임워크를 구축하였습니다. 더불어, 우리의 접근 방식은 유연하며 대부분의 기존 깊이 추정 프레임워크에 일반화될 수 있습니다. 코드는 다음 링크에서 확인 가능합니다: https://tinyurl.com/STCLSTM