
우리는 감독되지 않은 골격 기반 행동 인식을 위한 새로운 시스템을 제안합니다. 다양한 움직임 중에 얻은 신체 키포인트 시퀀스를 입력으로 주면, 우리의 시스템은 이러한 시퀀스를 행동과 연관시킵니다. 이 시스템은 인코더-디코더 순환 신경망을 기반으로 하며, 모델이 예측 작업을 수행하도록 훈련함으로써 인코더는 그 은닉 상태 내에서 분리 가능한 특징 표현을 학습합니다. 우리는 이러한 감독되지 않은 훈련에 따라 디코더와 인코더가 은닉 상태를 특징 공간으로 자동 조직화하여 유사한 움직임은 같은 클러스터로, 서로 다른 움직임은 먼 클러스터로 군집화한다고 보여줍니다. 현재의 최신 행동 인식 방법들은 강력하게 감독되며, 즉 훈련에 라벨 제공에 의존합니다. 감독되지 않은 방법들이 제안되었지만, 이들은 각 시간 단계에서 카메라와 깊이 입력(RGB+D)을 필요로 합니다. 반면에, 우리의 시스템은 완전히 감독되지 않으며, 어떠한 단계에서도 행동의 라벨이 필요하지 않고 신체 키포인트 입력만으로 작동할 수 있습니다. 또한, 이 방법은 신체 키포인트의 여러 차원(2D 또는 3D)에서 수행할 수 있으며 움직임을 설명하는 추가적인 큐를 포함할 수 있습니다. 우리는 서로 다른 행동과 예제 수를 가진 세 가지 광범위한 행동 인식 벤치마크에서 우리 시스템을 평가했습니다. 우리의 결과는 이전의 감독되지 않은 골격 기반 방법들과 감독되지 않은 RGB+D 기반 방법들보다 교차 뷰 테스트에서 우수하며, 감독되지 않았음에도 불구하고 감독된 골격 기반 행동 인식과 유사한 성능을 보입니다.