2달 전
STM: SpatioTemporal and Motion Encoding for Action Recognition STM: 시공간 및 운동 인코딩을 활용한 행동 인식
Boyuan Jiang; Mengmeng Wang; Weihao Gan; Wei Wu; Junjie Yan

초록
공간-시간적 특성과 운동 특성은 비디오 행동 인식에 있어 보완적이며 중요한 정보입니다. 최근 최신 방법들은 3D CNN 스트림을 사용하여 공간-시간적 특성을 학습하고, 다른 플로우 스트림을 사용하여 운동 특성을 학습합니다. 본 연구에서는 이 두 가지 특성을 효율적으로 통합된 2D 프레임워크에서 인코딩하는 것을 목표로 합니다. 이를 위해 먼저 STM 블록을 제안하는데, 이 블록은 공간-시간적 특성을 표현하기 위한 채널별 공간-시간 모듈(Channel-wise SpatioTemporal Module, CSTM)과 운동 특성을 효율적으로 인코딩하기 위한 채널별 운동 모듈(Channel-wise Motion Module, CMM)을 포함합니다. 다음으로, ResNet 구조의 원래 잔차 블록을 STM 블록으로 대체하여 매우 제한적인 추가 계산 비용만 도입하면서 간단하면서도 효과적인 STM 네트워크를 형성합니다. 광범위한 실험 결과는 제안된 STM 네트워크가 시간 관련 데이터셋(예: Something-Something v1 & v2 및 Jester)과 장면 관련 데이터셋(예: Kinetics-400, UCF-101 및 HMDB-51) 모두에서 공간-시간적 특성과 운동 특성을 함께 인코딩함으로써 기존 최신 방법들을 능가한다는 것을 입증하였습니다.