2달 전
행동 인식을 위한 시공간 컨볼루션의 자세한 검토
Du Tran; Heng Wang; Lorenzo Torresani; Jamie Ray; Yann LeCun; Manohar Paluri

초록
본 논문에서는 비디오 분석을 위한 여러 형태의 시공간 합성곱(spatiotemporal convolutions)을 다루고, 이들이 행동 인식에 미치는 영향을 연구합니다. 본 연구의 동기는 개별 비디오 프레임에 적용된 2D CNNs가 행동 인식에서 여전히 강력한 성능을 보여주고 있다는 관찰에서 비롯되었습니다. 본 연구에서는 잔차 학습(residual learning)의 틀 안에서 3D CNNs가 2D CNNs보다 정확도 측면에서 우위를 보이는 것을 경험적으로 입증하였습니다. 또한, 3D 합성곱 필터를 별도의 공간적 및 시간적 구성 요소로 분해하면 정확도 측면에서 상당한 이점을 얻을 수 있음을 보였습니다. 이러한 경험적 연구를 바탕으로 새로운 시공간 합성곱 블록 "R(2+1)D"를 설계하였으며, 이는 Sports-1M, Kinetics, UCF101 및 HMDB51 데이터셋에서 최신 기술과 비교할 수 있는 또는 그 이상의 결과를 달성하는 CNNs를 생성하였습니다.