UNIK: 실세계 뼈대 기반 동작 인식을 위한 통합 프레임워크

스켈레톤 데이터 기반의 동작 인식은 최근 점차 증가하는 관심과 함께 급속한 발전을 이뤄왔다. 최신 기술들은 인간의 해부학적 구조를 전제로 한 그래프 컨볼루션 네트워크(GCN)를 활용하여 인간 스켈레톤에서 효과적으로 특징을 추출할 수 있다. 그러나 이러한 GCN 기반의 방법들은 특히 다양한 인간 해부학적 구조를 가진 도메인 간 일반화 능력에 한계를 보이고 있다. 이에 따라 본 연구에서는 인간 스켈레톤 시퀀스에서 공간-시간 특징을 효과적으로 학습할 뿐만 아니라, 다양한 데이터셋 간에서도 우수한 일반화 성능을 보이는 새로운 스켈레톤 기반 동작 인식 방법인 UNIK을 제안한다. 이는 다중 헤드 어텐션 메커니즘을 기반으로 균일 분포에서 최적의 의존성 행렬을 학습함으로써 달성된다. 또한, 실제 영상에서 스켈레톤 기반 동작 인식의 도메인 간 일반화 능력을 평가하기 위해, 새로운 Posetics 데이터셋을 기반으로 최신 기술들과 제안한 UNIK의 성능을 재평가하였다. 이 데이터셋은 Kinetics-400 영상에서 포즈를 추정하고 정제하며 필터링하여 생성되었다. 본 연구는 Posetics에서 사전 학습한 후, 더 작은 벤치마크 데이터셋에서 동작 분류 작업의 성능 향상 정도에 대해 분석을 제공한다. 실험 결과, Posetics에서 사전 학습한 UNIK은 Toyota Smarthome, Penn Action, NTU-RGB+D 60, NTU-RGB+D 120의 네 가지 타겟 동작 분류 데이터셋에 전이될 때, 기존 최고 성능 기법들을 능가하며 우수한 일반화 성능을 보였다.