스켈레톤 기반 제스처 인식: 경로 서명 특징과 시간 변환기 모듈을 사용한 여러 완전 연결 계층

스켈레톤 기반 제스처 인식은 다양한 응용 가능성이 있어 점점 더 인기를 얻고 있습니다. 주요 이슈는 차별적인 특징을 추출하는 방법과 분류 모델을 설계하는 방법입니다. 본 논문에서는 강건한 특징 설명자인 경로 서명(Path Signature, PS)을 활용하여 공간적 및 시간적 운동 특성을 명시적으로 표현하기 위한 세 가지 PS 특징, 즉 공간 PS(Spatial Path Signature, S_PS), 시간 PS(Temporal Path Signature, T_PS) 및 시간-공간 PS(Temporal-Spatial Path Signature, T_S_PS)를 제안합니다. 제스처에서 미세한 손 움직임의 중요성을 고려하여, "손에 대한 주의(Attention On Hand, AOH)" 원칙을 제안하여 S_PS를 위한 관절 쌍을 정의하고 T_PS를 위한 단일 관절을 선택합니다. 또한 이원법(Dyadic Method)을 사용하여 전체와 부분적인 시간 동역학을 포함하는 T_PS 및 T_S_PS 특징을 추출합니다.둘째로, 순환 전략 없이도 분류 모델은 서로 다른 시퀀스 간의 시간 변동성에 대한 도전 과제를 여전히 직면하고 있습니다. 우리는 각 입력에 대해 시간 이동 매개변수를 학습함으로써 시퀀스 키 프레임(key frames)을 일치시키는 새로운 시간 트랜스포머 모듈(Temporal Transformer Module, TTM)을 제안합니다. 이는 표준 신경망 구조에 포함될 수 있는 학습 기반 모듈입니다.마지막으로, 우리는 공간적 및 시간적 특징을 별도로 처리하고 최종 결과를 위해 이를 융합하는 다중 스트림 완전 연결 계층 기반 네트워크를 설계했습니다. 본 방법론은 ChaLearn 2016, ChaLearn 2013 및 MSRC-12라는 세 개의 벤치마크 제스처 데이터셋에서 테스트되었습니다. 실험 결과는 본 연구가 높은 계산 효율성과 함께 스켈레톤 기반 제스처 인식에서 최신 성능(state-of-the-art performance)을 달성하였음을 입증하였습니다.