17일 전

이벤트 카메라를 위한 상태 공간 모델

Nikola Zubić, Mathias Gehrig, Davide Scaramuzza
이벤트 카메라를 위한 상태 공간 모델
초록

오늘날 이벤트 카메라 데이터를 처리하는 최신의 심층 신경망은 먼저 시간 창 내의 이벤트들을 밀도 높은 격자형 입력 표현으로 변환합니다. 그러나 이러한 접근 방식은 훈련 시 사용된 시간 창보다 더 높은 추론 주파수(즉, 더 작은 시간 창)에서 배포될 경우 일반화 성능이 저하되는 문제가 있습니다. 이 문제를 해결하기 위해, 학습 가능한 시간 스케일 파라미터를 갖는 상태공간 모델(State-Space Models, SSMs)을 이벤트 기반 시각 인식에 도입합니다. 이 설계는 다양한 주파수에 적응할 수 있어, 다양한 주파수에서 네트워크를 재훈련할 필요 없이도 효과적으로 작동합니다. 또한, 더 높은 주파수에서 모델을 배포할 경우 발생할 수 있는 앨리어싱(aliased) 효과를 완화하기 위한 두 가지 전략을 탐구합니다. 우리는 RNN 및 트랜스포머 아키텍처 기반 기존 방법들과 비교하여 다양한 벤치마크(예: Gen1 및 1 Mpx 이벤트 카메라 데이터셋)에서 본 방법을 포괄적으로 평가하였습니다. 실험 결과, SSM 기반 모델은 훈련 속도가 33% 더 빠르며, 훈련 입력보다 더 높은 주파수에서 테스트할 때도 성능 저하가 극히 적음을 확인할 수 있었습니다. 반면 기존의 RNN 및 트랜스포머 모델은 20 mAP 이상의 성능 하락을 보였고, SSM은 단 3.76 mAP의 하락만을 보이며, 이는 SSM이 이벤트 기반 시각 인식 과제에서 매우 효과적임을 입증합니다.