Ecsnet: 이벤트 카메라를 위한 공간-시간 특징 학습
신경형 이벤트 카메라는 비동기적이고 희소한 이벤트 신호를 생성함으로써 장면의 잠재적 기하 구조와 운동 정보를 효율적으로 감지할 수 있다. 그러나 이벤트 신호는 불규칙한 배열을 가지므로, 풍부한 시공간 정보를 활용하여 인식 작업을 수행하는 방법은 여전히 중요한 도전 과제로 남아 있다. 기존의 방법들은 일반적으로 이벤트를 밀도 높은 이미지 유사 또는 점 시계열 표현으로 간주한다. 그러나 이러한 접근 방식은 이벤트 데이터의 희소성에 심각한 손상을 초래하거나, 강건한 공간적 특징을 효과적으로 인코딩하지 못하는 문제가 있다. 본 연구에서는 이벤트의 본질적 희소성을 최대한 활용하면서 시공간 정보를 조화롭게 통합할 수 있도록, 2D-1T 이벤트 클라우드 시퀀스(2D-1T ECS)라는 컴팩트한 이벤트 표현 방식을 제안한다. 이 표현 방식을 새로운 경량 시공간 학습 프레임워크인 ECSNet과 결합하여 객체 분류 및 동작 인식 등 다양한 작업에 적용 가능하게 하였다. 본 프레임워크의 핵심은 계층적인 공간 관계 모듈이다. 이 모듈은 특별히 설계된 표면 기반 이벤트 샘플링 유닛과 지역 이벤트 정규화 유닛을 갖추어 이벤트 간 관계를 강화하여, 2D 이벤트 클라우드로부터 강건한 기하학적 특징을 학습한다. 또한, 1T 클라우드 시퀀스에 따라 변화하는 장기적 시적 맥락을 효율적으로 포착하기 위해 운동 주의(attention) 모듈을 제안하였다. 실험 결과에 따르면, 제안한 프레임워크는 기존 최고 수준의 성능과 동등하거나 이를 초월하는 성능을 달성하였다. 특히, 복잡한 전처리 작업 없이도 이벤트 데이터의 희소성과 잘 조화를 이룰 수 있어, 낮은 계산 비용과 뛰어난 추론 속도를 제공함으로써 실시간 응용에 매우 적합하다.