MVFNet: 효율적인 비디오 인식을 위한 다중 시점 융합 네트워크

기존의 동영상 행동 인식 분야에서 공간-시간 모델링 네트워크와 그 복잡성은 가장 집중적으로 연구된 두 가지 주제였다. 기존의 최첨단 방법들은 복잡성과는 무관하게 뛰어난 정확도를 달성하고 있으나, 효율적인 공간-시간 모델링 기법들은 성능 측면에서 다소 뒤처지고 있다. 본 논문에서는 효율성과 효과성을 동시에 달성하고자 한다. 먼저, 기존의 H × W × T 동영상 프레임을 공간-시간 신호로 간주하는 전통적인 접근(높이-너비 공간 평면에서 관측) 외에, 높이-시간 및 너비-시간 평면에서도 동영상을 모델링함으로써 동영상의 동적 특성을 보다 철저히 포착하고자 한다. 둘째, 본 모델은 2차원 컨볼루션 신경망(2D CNN) 기반으로 설계되었으며, 모델의 복잡성에 대해 설계 단계에서부터 신중하게 고려하였다. 구체적으로, 효율성을 높이기 위해 분리형 컨볼루션( separable convolution)을 활용하는 새로운 다중 시점 융합(Multi-view Fusion, MVF) 모듈을 제안한다. 이 모듈은 플러그 앤 플레이(Plug-and-Play) 형식으로 구현되어 기존의 2D CNN에 간단히 삽입 가능하며, 간단하면서도 효과적인 모델인 MVFNet을 구성할 수 있다. 또한 MVFNet은 일반화된 동영상 모델링 프레임워크로 볼 수 있으며, 다양한 설정에 따라 기존의 C2D, SlowOnly, TSM 등의 기법으로 특화될 수 있다. 주요 벤치마크(즉, Something-Something V1 & V2, Kinetics, UCF-101, HMDB-51)에서 광범위한 실험을 수행한 결과, 제안하는 MVFNet이 2D CNN 수준의 복잡성으로도 최첨단 성능을 달성함을 입증하였다.