2달 전

실시간 손동작 인식 및 분류를 위한 합성곱 신경망의 활용

Okan Köpüklü; Ahmet Gunduz; Neslihan Kose; Gerhard Rigoll
실시간 손동작 인식 및 분류를 위한 합성곱 신경망의 활용
초록

비디오 스트림에서 동적 손동작을 실시간으로 인식하는 것은 다음과 같은 이유로 어려운 과제입니다: (i) 비디오에서 손동작이 언제 시작되고 종료되는지에 대한 표시가 없으며, (ii) 수행된 손동작은 한 번만 인식되어야 하며, (iii) 전체 아키텍처는 메모리와 전력 예산을 고려하여 설계되어야 합니다. 본 연구에서는 이러한 도전 과제들을 해결하기 위해 슬라이딩 윈도우 접근법을 사용하여 오프라인 작업용 컨벌루션 신경망(CNN) 아키텍처를 온라인으로 효율적으로 작동시키는 계층 구조를 제안합니다. 제안된 아키텍처는 두 개의 모델로 구성됩니다: (1) 손동작을 감지하기 위한 경량화된 CNN 아키텍처인 감지기와 (2) 감지된 손동작을 분류하기 위한 깊은 CNN인 분류기입니다. 감지된 손동작의 단일 시간 활성화를 평가하기 위해, 우리는 라벤슈타인 거리를 평가 지표로 제안합니다. 이 지표는 오분류, 다중 검출, 그리고 누락 검출을 동시에 측정할 수 있기 때문입니다. 우리는 EgoGesture와 NVIDIA Dynamic Hand Gesture Datasets라는 두 개의 공개 데이터셋에서 우리의 아키텍처를 평가하였습니다. 이 데이터셋들은 수행된 손동작의 시간적 검출과 분류를 요구합니다. 분류기에 사용된 ResNeXt-101 모델은 EgoGesture 벤치마크에서 94.04%, NVIDIA 벤치마크에서 83.82%의 최신 오프라인 분류 정확도를 달성하였습니다(깊이 모달리티 기준). 실시간 검출 및 분류에서는 오프라인 작동에 가까운 성능을 유지하면서 상당한 조기 검출 결과를 얻었습니다. 본 연구에서 사용된 코드와 사전 학습된 모델들은 공개적으로 이용 가능합니다.