색-이벤트 기반 추적 재검토: 통합 네트워크, 데이터셋 및 평가 지표

최근 몇 년간 색상 카메라와 이벤트 카메라(또는 동적 시각 센서, Dynamic Vision Sensors, DVS)를 결합하여 강건한 객체 추적을 수행하는 것은 새로운 연구 주제로 부상하고 있다. 기존의 색상-이벤트 추적 프레임워크는 일반적으로 특징 추출, 융합, 매칭, 상호 학습 등 여러 분산된 모듈로 구성되어 있어 효율성이 낮고 계산 복잡도가 높은 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 색상-이벤트 통합 추적(Color-Event Unified Tracking, CEUTrack)을 위한 단일 단계 기반 백본 네트워크를 제안한다. 이 네트워크는 색상 이미지 프레임과 이벤트 포인트를 입력으로 받아, 동시에 특징 추출, 융합, 추적을 수행할 수 있다. 먼저, 이벤트 포인트를 복셀(Voxel)로 변환하고, 양 모달리티(색상 및 이벤트)에 대해 각각 템플릿 영역과 검색 영역을 자르는 과정을 거친다. 이후 이들 영역은 토큰으로 변환되어 통합된 트랜스포머 백본 네트워크에 병렬로 입력된다. 출력 특징은 추적 헤드에 전달되어 타깃 객체의 위치를 정확히 결정한다. 제안하는 CEUTrack은 간단하면서도 효과적이고 효율적이며, 75 FPS 이상의 실시간 성능을 달성하며 새로운 최고 성능(SOTA)을 기록한다. 본 모델의 효과성을 보다 철저히 검증하고 이 작업의 데이터 부족 문제를 해결하기 위해, 90개 카테고리와 1,354개의 영상 시퀀스를 포함하는 일반적이고 대규모의 벤치마크 데이터셋 COESOT을 제안한다. 또한, 기존 기준 방법 대비 성능을 보다 정교하게 평가할 수 있도록 평가 툴킷 내에 새로운 평가 지표인 BOC(Boosted Object Confidence)를 도입하였다. 본 논문에서 제안하는 새로운 추적 방법, 데이터셋, 그리고 평가 지표가 색상-이벤트 기반 추적 연구에 더 나은 기반을 제공하기를 기대한다. 데이터셋, 툴킷, 소스 코드는 다음 링크에서 공개될 예정이다: \url{https://github.com/Event-AHU/COESOT}.