증강된 스켈레톤 기반 대조적 행동 학습과 모멘텀 LSTM을 이용한 비지도 행동 인식

3D 스켈레톤 데이터를 활용한 행동 인식은 최근 몇 년 동안 중요한 연구 주제로 떠오르고 있습니다. 기존의 대부분 방법들은 수작업으로 생성된 디스크립터를 추출하거나, 대량의 라벨링된 데이터가 필요한 지도 학습 패러다임을 통해 행동 표현을 학습합니다. 본 논문에서는 처음으로 비지도 학습 방식으로 라벨링되지 않은 스켈레톤 데이터의 다양한 증강을 활용하여 행동 표현을 학습할 수 있는 대조적 행동 학습 패러다임인 AS-CAL(Adversarial Skeleton Contrastive Action Learning)을 제안합니다. 구체적으로, 입력 스켈레톤 시퀀스의 증강 인스턴스(query와 key) 간의 유사성을 대조하여, 다양한 스켈레톤 변환에서 내재적인 행동 패턴("패턴 불변성")을 학습하는 방법을 제안합니다. 또한, 더 일관된 행동 표현을 학습하도록 유도하기 위해 모멘텀 LSTM(momentum-based moving average of LSTM based query encoder)을 제안합니다. 이는 키 시퀀스의 장기적인 행동 동역학을 인코딩하는데 사용됩니다. 세 번째로, 인코딩된 키들을 저장하기 위한 큐(queue)를 도입하여, 모델이 이전 키들을 유연하게 재사용하고 더 일관된 사전(dictionary)을 구축하여 대조적 학습 성능을 개선할 수 있도록 합니다. 마지막으로, 쿼리 인코더가 학습한 행동의 은닉 상태를 시간적으로 평균화하여 Contrastive Action Encoding(CAE)이라는 새로운 표현 방식을 제안합니다. 이는 인간의 행동을 효과적으로 표현하는 데 사용됩니다. 광범위한 실험 결과에 따르면, 본 접근법은 기존 수작업 방법들보다 최대 10-50%의 상위 1위 정확도를 개선했으며, 많은 지도 학습 방법들과 비교해도 유사하거나 심지어 우수한 성능을 보입니다.