
초록
우리는 비디오에서 제스처 인식을 위한 깊은 학습 프레임워크 내의 소형화되고 정확한 모델 개발 문제를 다룹니다. 이를 위해 끝에서 끝까지 훈련 가능한 3DCNN-LSTM 결합 모델을 제안합니다. 이 모델은 동작의 동적 정보를 포착하는 데 더 적합하다는 것을 보여주었습니다. 이 솔루션은 ChaLearn 데이터셋에서 최신 기술에 근접한 정확도를 달성하였으며, 모델 크기는 절반으로 줄였습니다. 또한 지식 증류 프레임워크와 모델 압축을 통해 훨씬 더 소형화된 표현 방식을 탐구하였습니다. 최종 모델의 크기는 1MB 미만이며, 초기 모델의 백분율 1% 미만이며, 정확도가 7% 감소하였음에도 불구하고 모바일 기기에서 실시간 제스처 인식에 적합합니다.