2달 전
3D 합성곱 신경망을 이용한 시공간 특징 학습
Du Tran; Lubomir Bourdev; Rob Fergus; Lorenzo Torresani; Manohar Paluri

초록
우리는 대규모 지도 비디오 데이터셋을 사용하여 깊은 3차원 컨볼루션 네트워크(3D ConvNets)로 시공간 특징 학습을 위한 간단하면서도 효과적인 접근법을 제안합니다. 우리의 연구 결과는 다음과 같습니다: 1) 3D ConvNets는 2D ConvNets에 비해 시공간 특징 학습에 더 적합합니다; 2) 모든 층에서 작은 3x3x3 컨볼루션 커널을 사용하는 균일한 아키텍처가 3D ConvNets의 최고 성능 아키텍처 중 하나입니다; 그리고 3) 우리가 학습한 특징, 즉 C3D (Convolutional 3D),와 간단한 선형 분류기를 사용하여 4개의 다른 벤치마크에서 기존 최신 방법들을 능가하며, 나머지 2개의 벤치마크에서는 현재 가장 좋은 방법들과 유사한 성능을 보입니다. 또한, 이 특징들은 매우 압축적입니다: UCF101 데이터셋에서 단지 10차원으로 52.8%의 정확도를 달성하였으며, ConvNets의 빠른 추론 덕분에 계산이 매우 효율적입니다. 마지막으로, 이 특징들은 개념적으로 매우 단순하고 훈련 및 사용이 용이합니다.