CT-Net: 비디오 분류를 위한 채널 텐서화 네트워크

3D 컨볼루션은 영상 분류에 강력한 성능을 발휘하지만, 일반적으로 계산 비용이 높은 문제가 있다. 최근 연구들은 주로 공간-시간 차원과/또는 채널 차원에서 3D 컨볼루션을 분해하는 방향으로 집중하고 있다. 그러나 대부분의 기존 방법들은 컨볼루션의 효율성과 특징 간 상호작용의 충분성 사이에서 적절한 균형을 이루지 못하고 있다. 이러한 문제를 해결하기 위해, 입력 특징의 채널 차원을 K개의 하위 차원의 곱으로 간주함으로써, 간결하고 새로운 채널 텐서화 네트워크(CT-Net)를 제안한다. 이 방법은 다차원적으로 컨볼루션을 자연스럽게 분해함으로써 계산 부담을 크게 줄이는 동시에, 서로 다른 채널 간의 특징 상호작용을 효과적으로 강화하고, 이러한 상호작용의 3D 수용 영역을 점진적으로 확장함으로써 분류 정확도를 향상시킬 수 있다. 또한, CT-모듈에 고차원적인 방식으로 공간, 시간 및 채널 주의(attention)를 학습할 수 있는 텐서 흥분(Tensor Excitation, TE) 메커니즘을 도입하여, CT-모듈 내 모든 특징 차원 간의 협업 능력을 향상시켰다. 마지막으로, 제안된 CT-Net을 유연하게 ResNet 아키텍처에 통합하였다. 다양한 도전적인 영상 기반 벤치마크 데이터셋, 예를 들어 Kinetics-400, Something-Something V1 및 V2에서 광범위한 실험을 수행한 결과, 최신의 SOTA(Sota) 기법들과 비교해 정확도와/또는 효율성 측면에서 뛰어난 성능을 입증하였다. 코드 및 모델은 https://github.com/Andy1621/CT-Net에서 공개될 예정이다.