
초록
최근, 3D 커널을 사용하는 컨볼루션 신경망(3D CNNs)은 비디오 프레임 내에서 시공간 특성을 추출하는 능력이 2D CNNs보다 우수하기 때문에 컴퓨터 비전 분야에서 매우 인기를 얻고 있습니다. 최근에는 메모리와 전력 예산을 고려한 효율적인 2D CNN 아키텍처를 구축하기 위한 큰 발전이 이루어졌지만, 3D CNNs에 대한 유사한 효율적인 아키텍처는 거의 존재하지 않습니다. 본 논문에서는 다양한 잘 알려진 효율적인 2D CNNs를 3D CNNs로 변환하고, 세 가지 주요 벤치마크에서 분류 정확도 측면으로 성능을 평가하였습니다. 실험은 (1) 학습 능력을 검증하기 위해 Kinetics-600 데이터셋, (2) 움직임 패턴을 포착하는 능력을 검증하기 위해 Jester 데이터셋, 그리고 (3) 전이 학습의 적용 가능성을 검증하기 위해 UCF-101 데이터셋을 사용하여 수행되었습니다. 각 모델의 런타임 성능은 단일 Titan XP GPU와 Jetson TX2 임베디드 시스템에서 평가되었습니다. 본 연구의 결과는 이러한 모델들이 실시간 성능과 상당한 정확도 및 메모리 사용량을 제공하므로 다양한 실제 응용 분야에서 활용될 수 있음을 보여주었습니다. 복잡도 수준별 분석 결과, 복잡성을 줄이기 위해 효율적인 3D CNNs를 너무 얕거나 좁게 설계해서는 안됨을 확인할 수 있었습니다. 본 연구에서 사용된 코드와 사전 훈련된 모델들은 공개적으로 이용 가능합니다.