8일 전

CNN+RNN 기반 깊이 및 스켈레톤 동적 손 제스처 인식

Kenneth Lai, Svetlana N. Yanushkevich
CNN+RNN 기반 깊이 및 스켈레톤 동적 손 제스처 인식
초록

인간의 활동 및 제스처 인식은 주변 지능(ambient intelligence) 분야에서 급속히 성장하고 있는 핵심 요소로, 특히 스마트 홈 및 생활 지원 시스템에서 중요한 역할을 한다. 본 논문에서는 깊은 신경망 기술인 합성곱 신경망(Convolutional Neural Networks, CNN)과 순환 신경망(Recurrent Neural Networks, RNN)의 강점을 결합하여 깊이(depth) 데이터와 스켈레톤(skeleton) 데이터를 활용한 자동 손 제스처 인식을 제안한다. 각각의 데이터 유형은 별도로 사용되어 신경망을 학습시켜 손 제스처를 인식하는 데 활용될 수 있다. 기존 연구에서는 스켈레톤 정보만을 기반으로 각 관절의 움직임 시퀀스를 인식하는 데 RNN이 우수한 성능을 보였으나, 본 연구는 깊이 데이터를 활용하여 CNN을 통해 깊이 이미지로부터 중요한 공간 정보를 추출하는 데 초점을 맞춘다. 이와 같은 CNN과 RNN의 연계 구조(CNN+RNN)는 제스처 시퀀스를 더욱 정확하게 인식할 수 있다. 또한, 스켈레톤 정보와 깊이 정보를 통합하여 시공간적 특징을 효과적으로 추출하기 위한 다양한 융합 기법을 탐색하였다. 제안된 방법은 동적 손 제스처-14/28 데이터셋에서 총 85.46%의 정확도를 달성하였다.