16일 전

VisEvent: 프레임과 이벤트 흐름의 협업을 통한 신뢰성 있는 객체 추적

Xiao Wang, Jianing Li, Lin Zhu, Zhipeng Zhang, Zhe Chen, Xin Li, Yaowei Wang, Yonghong Tian, Feng Wu
VisEvent: 프레임과 이벤트 흐름의 협업을 통한 신뢰성 있는 객체 추적
초록

보이는 카메라가 프레임 단위로 강도 이미지를 기록하는 것과 달리, 생물학적으로 영감을 받은 이벤트 카메라는 상이한 시점에 발생하는 희박한 이벤트 스트림을 매우 낮은 지연 시간으로 생성한다. 실제 상황에서 보이는 카메라는 질감 세부 정보와 천천히 움직이는 물체를 더 잘 인식할 수 있는 반면, 이벤트 카메라는 운동 왜곡이 발생하지 않으며 더 넓은 다이내믹 레인지 덕분에 고속 운동 및 저조도 환경에서도 우수한 성능을 발휘할 수 있다. 따라서 두 센서는 상호 보완적으로 작동하여 보다 신뢰성 높은 객체 추적을 가능하게 한다. 본 연구에서는 이와 같은 작업을 위한 현실적이고 대규모의 데이터셋이 부족한 문제를 해결하기 위해 대규모의 보이는-이벤트 벤치마크(이하 VisEvent)를 제안한다. 본 데이터셋은 저조도, 고속, 배경 혼잡 등의 조건에서 촬영된 총 820개의 영상 쌍으로 구성되어 있으며, 학습용과 테스트용으로 각각 500개와 320개의 영상이 포함되어 있다. VisEvent 기반으로 이벤트 흐름을 이벤트 이미지로 변환하고, 기존 단일 모달 추적기들을 이중 모달 버전으로 확장하여 30개 이상의 베이스라인 방법을 구축하였다. 더욱 중요한 것은, 서로 다른 모달 간의 효과적인 특징 융합을 달성하기 위해 교차 모달 트랜스포머(Cross-modality Transformer)를 제안함으로써 단순하면서도 효과적인 추적 알고리즘을 구현한 점이다. 제안된 VisEvent 데이터셋, FE108, COESOT, 그리고 두 개의 시뮬레이션 데이터셋(즉, OTB-DVS 및 VOT-DVS)을 대상으로 실시한 광범위한 실험을 통해 본 모델의 유효성을 입증하였다. 데이터셋 및 소스 코드는 아래 링크에서 공개되었다: \url{https://github.com/wangxiao5791509/VisEvent_SOT_Benchmark}.

VisEvent: 프레임과 이벤트 흐름의 협업을 통한 신뢰성 있는 객체 추적 | 최신 연구 논문 | HyperAI초신경