17일 전
InfoGCN: 인간의 골격 기반 동작 인식을 위한 표현 학습
{Karthik Ramani, QiXing Huang, Sang Wan Lee, Seunggeun Chi, Myoung Hoon Ha, Hyung-gun Chi}

초록
인체 골격 기반 동작 인식은 물리적 제약과 의도 간의 복잡한 관계를 다룰 수 있기 때문에 인간 행동의 미묘한 특성을 이해하는 데 유용한 수단을 제공한다. 여러 연구들이 골격 정보를 인코딩하는 데 초점을 맞추었지만, 이러한 정보를 인간 동작의 잠재 표현에 통합하는 데는 여전히 부족한 관심이 있었다. InfoGCN은 새로운 학습 목표와 인코딩 방법을 결합한 동작 인식을 위한 학습 프레임워크를 제안한다. 먼저, 정보 차단(bottleneck) 기반의 학습 목표를 설계하여 모델이 정보량은 풍부하면서도 컴팩트한 잠재 표현을 학습하도록 유도한다. 동작 분류를 위해 구분력 있는 정보를 제공하기 위해, 인간 동작의 맥락에 따라 달라지는 내재적 구조를 포착하는 주의 기반 그래프 컨볼루션을 도입한다. 또한, 관절 간의 상대적 위치를 활용한 다중 모달 골격 표현을 제안하여 관절에 대한 보완적인 공간 정보를 제공한다. InfoGCN은 NTU RGB+D 60 크로스 서브젝트 분할에서 93.0%, NTU RGB+D 120 크로스 서브젝트 분할에서 89.8%, NW-UCLA에서 97.0%의 정확도를 기록하며, 다양한 골격 기반 동작 인식 벤치마크에서 기존 최고 성능을 초월하였다.