11일 전
MS-TCT: 동작 탐지를 위한 다중 규모 시계열 컨브트랜스포머
Rui Dai, Srijan Das, Kumara Kahatapitiya, Michael S. Ryoo, Francois Bremond

초록
행동 탐지(action detection)는 특히 잘라내지 않은 영상의 밀도 높은 레이블 데이터셋에서 핵심적이면서도 도전적인 과제이다. 이러한 데이터셋에서는 시간적 관계가 복잡하며, 복합 행동(composite action)이나 동시 발생 행동(co-occurring action)과 같은 도전 과제를 포함한다. 이러한 복잡한 영상에서 행동을 탐지하기 위해서는 영상 내에서 단기적 및 장기적 시간 정보를 효율적으로 포착하는 것이 매우 중요하다. 이를 위해 우리는 행동 탐지를 위한 새로운 ConvTransformer 네트워크를 제안한다. 이 네트워크는 세 가지 주요 구성 요소로 구성된다. (1) 시간 인코더(Temporal Encoder) 모듈은 다양한 시간 해상도에서 전역적이고 국소적인 시간적 관계를 광범위하게 탐색한다. (2) 시간 규모 믹서(Temporal Scale Mixer) 모듈은 다중 규모 특징을 효과적으로 융합하여 통합된 특징 표현을 생성한다. (3) 분류 모듈은 인스턴스 중심에 대한 상대적 위치를 학습하고 프레임 단위 분류 점수를 예측한다. Charades, TSU, MultiTHUMOS를 포함한 다양한 데이터셋에서 실시한 광범위한 실험을 통해 제안한 방법의 효과성을 입증하였다. 제안된 네트워크는 세 가지 데이터셋 모두에서 최신 기술(SOTA)을 능가하는 성능을 달성하였다.