
초록
이벤트 카메라(event camera)는 시공간적 밝기 변화를 감지함으로써 이벤트를 출력하는 방식으로, 높은 역동 범위(dynamic range)와 낮은 지연(latency)을 갖는 이미지 센서에 새로운 패러다임을 제시한다. 기존 연구들은 합성곱 신경망(Convolutional Neural Networks, CNN)을 도입함으로써 이벤트 기반 영상 재구성에서 놀라운 성능을 달성해왔다. 그러나 합성곱 연산의 본질적인 국소성(locality)은 장거리 의존성(long-range dependency)을 모델링하는 데 한계가 있으며, 이는 다양한 비전 작업에 있어 핵심적인 요소이다. 본 논문에서는 CNN의 정밀한 국소 정보와 Transformer의 전역적 맥락(context)을 동시에 활용할 수 있는 하이브리드 CNN-Transformer 네트워크인 이벤트 기반 영상 재구성(ET-Net)을 제안한다. 또한, 토큰 공간 내부의 내재적이고 교차하는 의미적 개념들을 연결하기 위해 다중 스케일 토큰 통합을 구현하는 토큰 피라미드 집계(Token Pyramid Aggregation) 전략을 추가로 제안한다. 실험 결과, 제안하는 방법이 여러 실세계 이벤트 데이터셋에서 최신 기술(SOTA)보다 뛰어난 성능을 보임을 입증하였다. 코드는 https://github.com/WarranWeng/ET-Net 에서 공개되어 있다.