
초록
이 논문의 초점은 인간과 기계 간의 상호작용 환경에서의 동적 제스처 인식에 있다. 우리는 두 개의 하위 네트워크로 구성된 모델을 제안한다. 하나는 트랜스포머이고, 다른 하나는 순서화된 뉴런을 갖춘 장단기 기억(ON-LSTM) 기반 순환 신경망(RNN)이다. 각 하위 네트워크는 뼈대 관절 정보만을 사용하여 제스처 인식 작업을 수행하도록 학습된다. 아키텍처의 차이로 인해 각 하위 네트워크는 서로 다른 유형의 특징을 추출하므로, 두 네트워크 간에 지식을 공유할 수 있다. 지식 증류(knowledge distillation) 기법을 통해 각 하위 네트워크의 특징과 예측값이 융합되어 새로운 융합 분류기로 통합된다. 또한, 주기적 학습률(cyclical learning rate)을 활용하여 일련의 모델을 생성하고, 이를 앙상블 방식으로 결합함으로써 더 일반화된 예측 성능을 도출할 수 있다. 제안된 지식 공유 모델의 앙상블은 동적 손 제스처-14/28(Dynamic Hand Gesture-14/28) 데이터셋을 기반으로 테스트한 결과, 뼈대 정보만을 사용함에도 불구하고 전반적인 정확도가 86.11%에 달함을 확인하였다.