이벤트 스트림 분류를 위한 시계열 주의 메커니즘을 갖춘 스파이킹 신경망

시공간적 이벤트 스트림(이벤트가 일반적으로 희박하고 비균일하며 마이크로초 수준의 시간 해상도를 가지는 경우)을 효과적이고 효율적으로 다루는 것은 매우 중요한 가치를 지니며, 다양한 실제 응용 분야에서 활용될 수 있다. 스파이킹 신경망(Spiking Neural Network, SNN)은 뇌를 모방한 이벤트 트리거 기반의 계산 모델 중 하나로서, 이벤트 스트림으로부터 효과적인 시공간 특징을 추출할 잠재력을 가지고 있다. 그러나 기존의 SNN 모델들은 개별 이벤트를 더 높은 시간 해상도를 가진 프레임으로 집계할 때, 이벤트 스트림이 희박하고 비균일하기 때문에 연속된 프레임들 간의 신호 대 잡음 비율(SNR)이 다름을 고려하지 않아, 이로 인해 기존 SNN의 성능에 방해가 된다. 본 연구에서는 이 문제를 해결하기 위해 프레임 기반 표현을 처리하기 위한 시간적 주의 메커니즘을 도입한 타임워이즈 어텐션 SNN(TA-SNN) 모델을 제안한다. 구체적으로, 학습 단계에서 입력의 시간적 차원에 어텐션 개념을 확장하여 각 프레임이 최종 결정에 미치는 중요성을 평가하고, 추론 단계에서는 관련 없는 프레임을 제거함으로써 효율적인 처리를 가능하게 한다. 실험을 통해 TA-SNN 모델이 이벤트 스트림 분류 작업에서 정확도 향상을 입증하였다. 또한, 프레임 기반 표현에 대한 다중 규모의 시간 해상도가 미치는 영향을 탐구하였다. 제안한 방법은 손짓 인식, 이미지 분류, 발성 숫자 인식 등 세 가지 다른 분류 작업에 적용되었으며, 각각의 과제에서 최신 기술(SOTA) 수준의 성능을 기록하였고, 단 60ms의 처리 시간으로 손짓 인식에서 정확도를 거의 19% 향상시키는 본질적인 개선을 달성하였다.