
그룹 컨볼루션은 이미지 분류를 위한 다양한 2D 컨볼루셔널 아키텍처에서 큰 계산량 절감을 제공한다는 것이 입증되었습니다. 이에 따라 다음과 같은 질문이 자연스럽게 제기됩니다: 1) 그룹 컨볼루션이 비디오 분류 네트워크의 높은 계산 비용을 완화하는 데 도움이 될 수 있는가; 2) 3D 그룹 컨볼루셔널 네트워크에서 가장 중요한 요인은 무엇인가; 그리고 3) 3D 그룹 컨볼루셔널 네트워크에서 좋은 계산량/정확도 균형은 무엇인가.본 논문에서는 비디오 분류를 위한 3D 그룹 컨볼루셔널 네트워크에서 다른 설계 선택의 영향을 연구합니다. 우리는 경험적으로 채널 상호작용의 양이 3D 그룹 컨볼루셔널 네트워크의 정확도에 중요한 역할을 한다는 것을 증명하였습니다. 우리의 실험은 두 가지 주요한 결과를 제시합니다. 첫째, 채널 상호작용과 시공간 상호작용을 분리하여 3D 컨볼루션을 인수분해하는 것이 더 나은 정확도와 낮은 계산 비용을 가져오는 좋은 방법이라는 것입니다. 둘째, 3D 채널 분리 컨볼루션이 일종의 규제 효과를 제공하여, 훈련 정확도는 낮아지지만 테스트 정확도는 3D 컨볼루션보다 높아집니다. 이러한 두 가지 경험적 결과는 단순하면서 효율적이고 정확한 아키텍처인 채널 분리 컨볼루셔널 네트워크 (Channel-Separated Convolutional Network, CSN) 설계로 이어졌습니다. 스포츠1M, kinetics, 그리고 something-something 데이터셋에서 우리의 CSN들은 최신 기술들과 비교해 동등하거나 우수한 성능을 보이며, 최대 2-3배 더 효율적입니다.