
우리는 이벤트 카메라를 위한 새로운 백본으로서 순환형 비전 트랜스포머(RVT, Recurrent Vision Transformers)를 제안한다. 이벤트 카메라는 초당 수밀리초 이내의 낮은 지연 시간, 높은 다이나믹 레인지, 그리고 운동 왜곡에 대한 강한 내성을 갖춘 시각 정보를 제공한다. 이러한 독특한 특성은 시간적으로 민감한 상황에서 저지연 물체 탐지 및 추적에 큰 잠재력을 지닌다. 기존의 이벤트 기반 비전 연구들은 뛰어난 탐지 성능을 달성했지만, 일반적으로 40밀리초 이상의 상당한 추론 시간을 수반했다. 본 연구에서는 순환형 비전 백본의 고수준 설계를 재검토함으로써, 유사한 성능을 유지하면서도 추론 시간을 6배 이상 단축시켰다. 이를 달성하기 위해, 각 단계에서 세 가지 핵심 개념을 활용하는 다단계 설계를 탐색하였다. 첫째, 조건부 위치 임베딩으로 볼 수 있는 컨볼루션 전처리(convolutional prior)이다. 둘째, 공간적 특징 상호작용을 위한 국소적 및 확장된 전역 자기주의(Self-attention)이다. 셋째, 시간 정보를 유지하면서 지연 시간을 최소화하는 순환적 시계열 특징 집계 기법이다. RVT는 이벤트 기반 물체 탐지에서 최신 기술 수준의 성능을 달성하기 위해 초기부터 학습할 수 있으며, Gen1 자동차 데이터셋에서 mAP 47.2%를 기록했다. 동시에 RVT는 빠른 추론 속도(또는 T4 GPU에서 12밀리초 미만)와 뛰어난 파라미터 효율성(기존 기술 대비 약 5배 적은 파라미터 수)을 제공한다. 본 연구는 이벤트 기반 비전을 넘어서는 다양한 분야에서 유용한 효과적인 설계 선택에 대한 새로운 통찰을 제시한다.