
초록
시간적 변동에 대한 일반화는 비디오 내에서 효과적인 행동 인식을 위한 전제 조건이다. 심층 신경망의 급속한 발전에도 불구하고, 전체 행동 성능과 관련하여 단기적 구분 가능한 움직임에 집중하는 것은 여전히 도전 과제로 남아 있다. 본 연구에서는 관련 공간-시간 특징을 탐색하는 과정에서 어느 정도의 유연성을 부여함으로써 이 문제를 해결한다. 우리는 유사한 활성화 특성을 가지며 시간적 변동 가능성을 고려한 입력을 선호하는 Squeeze and Recursion Temporal Gates(SRTG)라는 새로운 접근법을 제안한다. 이 아이디어는 LSTM을 활용하여 특징의 동적 변화를 포괄하는 새로운 CNN 블록과, 탐색된 동적 특징과 모델링된 특징 간 일관성을 평가하는 시간 게이트(temporal gate)를 결합하여 구현한다. SRTG 블록을 사용할 경우, GFLOPs 수치의 최소한의 증가만으로도 일관된 성능 향상을 확인할 수 있다. Kinetics-700 데이터셋에서는 현재 최고 수준의 모델들과 동등한 성능을 기록하였으며, HACS, Moments in Time, UCF-101 및 HMDB-51 데이터셋에서는 기존 모델들을 모두 능가하는 성능을 보였다.