11일 전
다중 샷 시계열 이벤트 로컬라이제이션: 벤치마크
Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai, Philip H.S. Torr

초록
최근의 시계열 이벤트 또는 동작 위치 추정 연구는 일반적으로 단일 카메라로 촬영된 동작에 초점을 맞추고 있다. 그러나 실제 환경에서 발생하는 광범위한 이벤트나 동작은 다양한 위치에 설치된 다수의 카메라를 통해 여러 장면(샷)의 시퀀스로 기록될 수 있다. 본 논문에서는 이러한 복잡한 시나리오를 고려하여, 다중 샷 시계열 이벤트 위치 추정(Multi-shot Temporal Event Localization)이라는 새로운 도전 과제를 제안하고, 이를 위한 대규모 데이터셋인 MUlti-Shot EventS(MUSES)를 구축하였다. MUSES는 총 716시간의 영상에 걸쳐 31,477개의 이벤트 인스턴스를 포함하고 있다. MUSES의 핵심 특성은 빈번한 샷 전환으로, 평균적으로 각 이벤트 인스턴스당 19개의 샷, 영상당 176개의 샷이 포함되어 있어 인스턴스 내부의 큰 변동성을 초래한다. 종합적인 평가 결과, 기존 시계열 동작 위치 추정의 최신 기법도 IoU=0.5에서 mAP가 단지 13.1%에 그치는 것으로 나타났다. 보조적인 기여로, 인스턴스 내부 변동성을 다루기 위한 간단한 베이스라인 방법을 제안하였으며, 이는 MUSES에서 IoU=0.5일 때 mAP 18.9%를, THUMOS14에서는 56.9%를 기록하였다. 본 연구 분야의 발전을 촉진하기 위해, 데이터셋과 프로젝트 코드를 https://songbai.site/muses/ 에 공개한다.