17일 전
MotionSqueeze: 비디오 이해를 위한 신경망 운동 특징 학습
Heeseung Kwon, Manjin Kim, Suha Kwak, Minsu Cho

초록
움직임은 비디오를 이해하는 데 핵심적인 역할을 하며, 현재 최고 수준의 비디오 분류를 위한 신경망 모델들은 보통 별도의 상용 도구를 통해 추출한 광학 흐름(optical flow)을 활용하여 움직임 정보를 포함한다. 그러나 프레임 간 광학 흐름을 계산하는 과정은 매우 높은 계산량을 요구하므로, 움직임 정보를 통합하는 것은 여전히 비디오 이해 분야에서 주요한 계산적 병목 현상으로 남아 있다. 본 연구에서는 이러한 외부적이고 고부하의 광학 흐름 계산을, 내부적으로 가벼운 움직임 특징 학습으로 대체한다. 우리는 효과적인 움직임 특징 추출을 위한 학습 가능한 신경 모듈인 MotionSqueeze를 제안한다. 이 모듈은 어떤 신경망 내부 중간 위치에 삽입될 수 있으며, 프레임 간 대응 관계를 자동으로 학습하고 이를 움직임 특징으로 변환하여 다음 하류 계층으로 손쉽게 전달함으로써 보다 정확한 예측을 가능하게 한다. 제안한 방법이 단지 소량의 추가 비용만으로도 네 가지 표준 행동 인식 벤치마크에서 상당한 성능 향상을 제공함을 입증하였으며, 특히 Something-Something-V1&V2 데이터셋에서 기존 최고 성능을 능가함을 보였다.