Retina: 이벤트 카메라와 스파이킹 하드웨어를 이용한 저전력 안구 추적

본 논문은 동적 비전 센서(Dynamic Vision Sensor, DVS) 카메라로 캡처된 순수 이벤트 데이터를 활용한 눈 추적을 위한 뉴로모픽 방법론을 소개합니다. 이 프레임워크는 직접 훈련된 스파이킹 뉴런 네트워크(Spiking Neuron Network, SNN) 회귀 모델을 통합하고, 최신 저전력 엣지 뉴로모픽 프로세서인 Speck을 활용하여 눈 추적 시스템의 정밀도와 효율성을 향상시키는 것을 목표로 합니다. 먼저, 30명의 자원자로부터 얻은 두 개의 유리 장착형 DVS 카메라를 사용하여 수집된 대표적인 이벤트 기반 눈 추적 데이터셋 "Ini-30"을 소개합니다. 다음으로, 64k 파라미터(최신 모델보다 6.63배 적음)만으로 구성되어 있으며 64x64 DVS 입력에서 홍채 추적 오차가 단 3.24 픽셀에 불과한 Integrate And Fire(IAF) 뉴런 기반 SNN 모델 "Retina"를 설명합니다. 연속적인 회귀 출력은 출력 스파이킹 계층 위에서 슬라이딩되는 비스파이킹 시간 1D 필터를 사용하여 합성곱을 통해 얻어집니다. 마지막으로, Retina 모델을 뉴로모픽 프로세서 Speck에서 평가하여 전체 전력 소비량이 2.89-4.8 mW이고, 시간 창에 따라 5.57-8.01 mS의 지연 시간을 보이는 결과를 제시합니다. 또한, 이벤트 프레임에 기반한 최신 이벤트 기반 눈 추적 방법 "3ET"와 비교 평가를 수행하였습니다. 결과는 Retina가 홍채 중심 오차가 1.24px 적고 MAC 연산 횟수가 35배 적어 더 우수한 정밀도와 낮은 계산 복잡도를 달성함을 보여줍니다. 우리는 이 연구가 클로즈드 루프 뉴로모픽 솔루션과 엣지 성능 추구를 위한 진정한 이벤트 기반 훈련에 대한 추가 조사의 길을 열기를 바랍니다.