
합성곱 신경망(Convolutional Neural Networks)은 이미지 인식 분야에서 표준 모델로 자리 잡고 있다. 그러나 2D CNN의 자연스러운 확장인 3D CNN은 영상 인식에 적용되면서 표준 동작 인식 벤치마크에서 동일한 성과를 달성하지 못하고 있다. 3D CNN의 성능 저하의 주요 원인 중 하나는 계산 복잡도의 증가로 인해 대규모 레이블링 데이터셋을 활용한 대규모 학습이 필요하기 때문이다. 이를 해결하기 위해 3D CNN의 복잡도를 줄이기 위한 3D 커널 분해 기법이 제안되었으나, 기존의 분해 기법들은 수작업으로 설계된 고정된 방식을 따르고 있다. 본 논문에서는 공간-시간 분해 내에서의 상호작용을 제어하고, 데이터에 따라 시간 방향으로 특징을 적응적으로 라우팅하며 이를 조합하는 새로운 스파이오-시간 특징 추출 모듈인 Gate-Shift-Fuse(GSF)를 제안한다. GSF는 그룹화된 공간 게이팅(Grouped Spatial Gating)을 활용하여 입력 텐서를 분해하고, 채널 가중치(Channel Weighting)를 통해 분해된 텐서를 융합한다. GSF는 기존의 2D CNN에 간단히 삽입함으로써, 거의 무시할 수 있는 파라미터 및 계산 오버헤드로 효율적이고 높은 성능을 발휘하는 스파이오-시간 특징 추출기로 변환할 수 있다. 본 연구에서는 두 가지 인기 있는 2D CNN 아키텍처를 기반으로 GSF에 대한 광범위한 분석을 수행하였으며, 다섯 개의 표준 동작 인식 벤치마크에서 최신 기술(SOTA) 수준 또는 경쟁력 있는 성능을 달성하였다.