17일 전

단일 카메라 깊이 예측을 위한 순환 비동기 다모달 네트워크를 이용한 이벤트와 프레임의 결합

Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza
단일 카메라 깊이 예측을 위한 순환 비동기 다모달 네트워크를 이용한 이벤트와 프레임의 결합
초록

이벤트 카메라는 픽셀 단위의 밝기 변화를 비동기적인 '이벤트' 스트림으로 보고하는 새로운 형태의 시각 센서입니다. 이들은 높은 시간 해상도, 넓은 다이내믹 레인지, 그리고 운동 흐림이 없기 때문에 기존 카메라에 비해 큰 장점을 지닙니다. 그러나 이벤트는 시각 신호의 변동 성분만 측정하기 때문에 장면의 맥락을 효과적으로 인코딩하는 데 한계가 있습니다. 반면, 기존 카메라는 절대적인 강도 프레임을 측정하여 장면에 대한 풍부한 표현을 제공합니다. 따라서 두 센서는 서로 보완적인 관계에 있습니다. 그러나 이벤트는 비동기적인 특성을 지니고 있어, 동기화된 이미지와 결합하는 것은 여전히 도전 과제이며, 특히 학습 기반 방법에서는 더욱 어렵습니다. 그 이유는 기존의 순환 신경망(RNN)이 추가 센서로부터 오는 비동기적이고 불규칙한 데이터를 처리하도록 설계되지 않았기 때문입니다. 이 문제를 해결하기 위해 우리는 다중 센서로부터 비동기적이고 불규칙한 데이터를 처리할 수 있도록 기존 RNN을 일반화한 Recurrent Asynchronous Multimodal(RAM) 네트워크를 제안합니다. 전통적인 RNN의 아이디어를 따르되, RAM 네트워크는 비동기적으로 업데이트되는 은닉 상태를 유지하며, 언제든지 이 상태를 조회하여 예측을 생성할 수 있습니다. 본 연구에서는 이 새로운 아키텍처를 이벤트와 프레임을 활용한 단안 깊이 추정에 적용하여, 평균 절대 깊이 오차 기준으로 최신 기술 대비 최대 30%의 성능 향상을 입증하였습니다. 다중 모달 학습 연구를 더욱 촉진하기 위해, CARLA 시뮬레이터에서 촬영한 이벤트 데이터, 강도 프레임, 세분적 레이블, 깊이 맵을 포함하는 새로운 데이터셋인 EventScape를 공개합니다.

단일 카메라 깊이 예측을 위한 순환 비동기 다모달 네트워크를 이용한 이벤트와 프레임의 결합 | 최신 연구 논문 | HyperAI초신경