16일 전
희소에서 밀도로의 프레임워크를 통한 액션 튜브 탐지
Yuxi Li, Weiyao Lin, Tao Wang, John See, Rui Qian, Ning Xu, Limin Wang, Shugong Xu

초록
공간-시간 행동 탐지(task of spatial-temporal action detection)는 연구자들 사이에서 점점 더 많은 관심을 끌고 있다. 기존의 주류 방법들은 각 프레임 또는 클립에 대해 밀도 높은 순차적 탐지에 의존하여 이 문제를 해결해 왔다. 이러한 방법들은 효과적임을 입증했지만, 장기 정보를 충분히 활용하지 못하고 효율성이 낮다는 한계를 지니고 있다. 본 논문에서는 처음으로, 단일 전방 전파(forward pass)를 통해 영상 스트림에서 행동 튜브 후보(trajectory proposals)를 희소(sparse)에서 밀도(dense)로 전환하는 방식으로 생성하는 효율적인 프레임워크를 제안한다. 본 프레임워크의 핵심적 특징은 다음과 같다: (1) 공간-시간 네트워크 내에서 장기적 및 단기적 샘플링 정보를 명시적으로 활용함, (2) 시스템의 취급 가능성(tractability)을 유지하면서도 튜브 출력을 효과적으로 근사할 수 있도록 새로운 동적 특징 샘플링 모듈(Dynamic Feature Sampling module, DTS)을 설계함. 제안된 모델은 UCF101-24, JHMDB-21, UCFSports 등의 벤치마크 데이터셋에서 평가되었으며, 최첨단 기법들과 경쟁 가능한 탁월한 성능을 보였다. 제안된 희소에서 밀도로의 전환 전략 덕분에, 본 프레임워크는 가장 유사한 경쟁 기법 대비 약 7.6배 더 효율적인 성능을 달성하였다.