다양한 시간 집계와 깊이별 시공간 분해를 이용한 효율적인 비디오 분류

최근 주목받고 있는 비디오 분류 연구는 시간적 모델링과 3D 효율적인 아키텍처 분야입니다. 그러나 시간적 모델링 방법은 효율적이지 않거나, 3D 효율적인 아키텍처는 시간적 모델링에 덜 관심을 보이고 있습니다. 이 두 분야 사이의 간극을 메우기 위해, 우리는 시간적 모델링이 가능한 효율적인 3D 아키텍처인 VoV3D를 제안합니다. VoV3D는 시간적 원샷 집계(T-OSA) 모듈과 깊이별 인수분해 구성 요소인 D(2+1)D로 구성됩니다. T-OSA는 서로 다른 시간 수용 범위를 가진 시간적 특징들을 집계하여 특징 계층을 구축하도록 설계되었습니다. 이 T-OSA를 쌓음으로써 네트워크 자체가 외부 모듈 없이 프레임 간의 단거리 및 장거리 시간 관계를 모델링할 수 있습니다.커널 인수분해와 채널 인수분해에서 영감을 얻어, 우리는 또한 3D 깊이별 컨볼루션을 공간적과 시간적 깊이별 컨볼루션으로 분해하여 네트워크를 더욱 경량화하고 효율적으로 만드는 깊이별 시공간 인수분해 모듈인 D(2+1)D를 설계하였습니다. 제안된 시간적 모델링 방법(T-OSA)과 효율적인 인수분해 구성 요소(D(2+1)D)를 사용하여, VoV3D-M과 VoV3D-L 두 가지 유형의 VoV3D 네트워크를 구축하였습니다.VoV3D-L은 시간적 모델링의 효율성과 효과성을 바탕으로 Something-Something 및 Kinetics-400 데이터셋에서 최신의 시간적 모델링 방법을 능가하며, 6배 적은 모델 매개변수와 16배 적은 연산량을 가지고 있습니다. 또한, VoV3D는 유사한 모델 용량을 가진 최신의 효율적인 3D 아키텍처인 X3D보다 더 우수한 시간적 모델링 능력을 보여줍니다. 우리는 VoV3D가 효율적인 비디오 분류 기준모델로 활용되기를 바랍니다.