초록
인간의 행동은 뼈대 관절의 궤적을 통해 표현될 수 있다. 기존의 방법들은 일반적으로 수작업으로 설계된 특징을 이용하여 인간 뼈대의 공간 구조와 시간적 동역학을 모델링하고, 잘 설계된 분류기를 통해 인간 행동을 인식한다. 본 논문에서는 순환 신경망(RNN)이 시간 시계열의 장기적 맥락 정보를 효과적으로 모델링할 수 있다는 점에 착안하여, 뼈대 기반 행동 인식을 위한 엔드 투 엔드 계층형 RNN을 제안한다. 전체 뼈대를 입력으로 사용하는 대신, 인간의 생리적 구조에 따라 뼈대를 다섯 부분으로 분할하고, 각 부분을 별도의 하위 네트워크에 입력한다. 층이 증가함에 따라 하위 네트워크가 추출한 표현들이 계층적으로 융합되어 상위 층의 입력으로 사용된다. 최종적으로 뼈대 시계열의 표현은 단일 층 퍼셉트론에 입력되며, 퍼셉트론의 시간적으로 누적된 출력이 최종 결정 결과가 된다. 제안된 네트워크의 효과성을 검증하기 위해, 본 모델에서 유도된 다섯 가지 다른 깊은 RNN 아키텍처와 비교하였으며, 공개된 세 가지 데이터셋에서 여러 다른 방법과도 비교하였다. 실험 결과, 본 모델은 높은 계산 효율성과 함께 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다.