17일 전

비디오 기반 동작 인식을 위한 움직임 주도 시각적 템포 학습

Yuanzhong Liu, Junsong Yuan, Zhigang Tu
비디오 기반 동작 인식을 위한 움직임 주도 시각적 템포 학습
초록

행동 시각적 속도(visual tempo)는 행동의 동역학성과 시간적 스케일을 특징짓는 요소로, 시각적 동역학성과 외형이 매우 유사한 인간 행동을 구분하는 데 유용하다. 기존의 방법들은 원시 영상을 다양한 샘플링 속도로 추출함으로써 시각적 속도를 포착하나, 각 속도를 처리하기 위해 비용이 큰 다층 네트워크를 필요로 하며, 또는 백본 특징을 계층적으로 샘플링하는 방식을 사용하지만, 이는 세부적인 시간적 동역학을 놓치는 고수준 특징에 크게 의존한다. 본 연구에서는 기존 행동 인식 백본에 쉽게 통합할 수 있는 플러그 앤 플레이 방식으로 적용 가능한 시간적 상관 모듈(Temporal Correlation Module, TCM)을 제안한다. TCM은 단일 레이어에서 저수준 백본 특징에서 행동의 시각적 속도를 효과적으로 추출할 수 있다. 구체적으로, TCM은 두 가지 주요 구성 요소로 구성된다: 다중 스케일 시간적 동역학 모듈(Multi-scale Temporal Dynamics Module, MTDM)과 시간적 주의 모듈(Temporal Attention Module, TAM). MTDM은 상관 연산(correlation operation)을 활용하여 빠른 속도와 느린 속도 모두에 대해 픽셀 단위의 세부적인 시간적 동역학을 학습한다. TAM은 다양한 속도에 걸친 전역 정보를 분석함으로써 표현력이 뛰어난 특징을 적극적으로 강조하고, 불필요한 특징은 억제한다. 여러 행동 인식 벤치마크, 예를 들어 Something-Something V1 & V2, Kinetics-400, UCF-101, HMDB-51에서 실시한 광범위한 실험을 통해 제안된 TCM이 기존 영상 기반 행동 인식 모델의 성능을 크게 향상시키는 데 효과적임을 입증하였다. 소스 코드는 공개적으로 제공되며, https://github.com/yzfly/TCM 에서 확인할 수 있다.