한 달 전
대규모 단일 제스처 인식을 위한 합성곱 신경망의 활용
Pichao Wang; Wanqing Li; Song Liu; Zhimin Gao; Chang Tang; Philip Ogunbona

초록
본 논문에서는 깊이 시퀀스의 세 가지 간단하면서도 효과적인 표현 방식을 제안합니다. 각각 동적 깊이 이미지(Dynamic Depth Images, DDI), 동적 깊이 법선 이미지(Dynamic Depth Normal Images, DDNI), 그리고 동적 깊이 운동 법선 이미지(Dynamic Depth Motion Normal Images, DDMNI)로 명명되었습니다. 이러한 동적 이미지는 양방향 순위 풀링(bidirectional rank pooling)을 사용하여 공간-시간 정보를 효과적으로 포착하기 위해 깊이 맵 시퀀스에서 구성됩니다. 이러한 이미지 기반 표현 방식은 대규모 이미지 데이터에서 학습된 기존의 ConvNets 모델을 깊이 시퀀스 분류에 미세 조정(fine-tune)할 수 있게 하며, 많은 학습 매개변수를 추가하지 않습니다. 제안된 표현 방식을 바탕으로, 컨볼루션 신경망(Convolutional Neural Networks, ConvNets) 기반의 제스처 인식 방법론이 개발되어 2016년 ChaLearn Looking at People (LAP) 챌린지의 대규모 단일 제스처 인식(Large-scale Isolated Gesture Recognition) 과제에서 평가되었습니다. 이 방법론은 55.57%의 분류 정확도를 달성하여 이 챌린지에서 2등을 차지하였으며, 단순히 깊이 데이터만을 사용했음에도 불구하고 최고 성능과 매우 가까운 결과를 보였습니다.