심층 합성곱 신경망을 이용한 깊이 맵에서의 동작 인식
이 논문은 소규모 학습 데이터셋에서 깊이 맵을 이용한 인간 동작 인식을 위한 새로운 방법, 즉 가중 치계 깊이 운동 맵(Weighted Hierarchical Depth Motion Maps, WHDMM)과 세 채널 심층 합성곱 신경망(3ConvNets)을 제안한다. 동작 인식을 위한 구분 능력을 효과적으로 추출하기 위해 ConvNets의 잠재력을 극대화하기 위한 세 가지 전략을 개발하였다. 첫째, 캡처된 깊이 맵의 3차원 점들을 회전시켜 다양한 시점 효과를 모방함으로써 더 많은 데이터를 합성할 뿐만 아니라, 학습된 ConvNets가 시점 변화에 대해 내성적으로 강건하도록 한다. 둘째, 여러 시간적 스케일에서 WHDMM을 구성하여 동작의 공간-시간적 운동 패턴을 2차원 공간 구조로 인코딩한다. 이 2차원 공간 구조는 WHDMM을 가상 색상 이미지로 변환함으로써 보다 강화되어 인식 성능을 향상시킨다. 셋째, 세 개의 ConvNet은 ImageNet에서 얻은 사전 학습 모델로 초기화한 후, 세 개의 서로 수직인 평면에 구성된 색상 인코딩 WHDMM에 대해 독립적으로 미세 조정(fine-tuning)한다. 제안된 알고리즘은 MSRAction3D, MSRAction3DExt, UTKinect-Action, MSRDailyActivity3D 데이터셋을 대상으로 교차 주체(cross-subject) 프로토콜을 사용하여 평가되었으며, 또한 위 데이터셋들을 통합하여 구성한 대규모 데이터셋에서도 평가되었다. 실험 결과, 제안된 방법은 대부분의 개별 데이터셋에서 기존 방법보다 2~9% 높은 성능을 달성하였다. 특히 대규모 데이터셋에서는 기존 방법이 동작 수 증가에 따라 성능이 저하되는 반면, 제안된 방법은 안정적인 성능을 유지함을 확인하였다.