15일 전
스켈레톤 기반 동작 인식을 위한 생성형 액션 설명 프롬프트
Wangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang

초록
스켈레톤 기반 동작 인식은 최근 큰 주목을 받고 있다. 기존의 스켈레톤 기반 동작 인식 접근법은 일반적으로 one-hot 분류 문제로 공식화되며, 동작 간의 의미적 관계를 충분히 활용하지 못한다. 예를 들어, “승리의 손짓”과 “엄지척”은 손짓 동작의 두 가지 예로, 주요 차이점은 손의 움직임에 있다. 이러한 정보는 동작 클래스의 범주형 one-hot 인코딩에서는 무시되지만, 동작 설명을 통해 드러날 수 있다. 따라서 학습 과정에서 동작 설명을 활용하면 표현 학습에 긍정적인 영향을 줄 수 있다. 본 연구에서는 스켈레톤 기반 동작 인식을 위한 생성형 동작 설명 프롬프트(Generative Action-description Prompts, GAP) 방법을 제안한다. 구체적으로, 사전 학습된 대규모 언어 모델을 지식 엔진으로 활용하여 동작의 신체 부위 움직임에 대한 텍스트 설명을 자동으로 생성하고, 텍스트 인코더를 이용해 각 신체 부위의 특징 벡터를 생성함으로써 다중 모달 학습 프레임워크를 제안한다. 이 프레임워크는 스켈레톤 인코더의 동작 표현 학습을 감독한다. 실험 결과, GAP 방법은 추론 시 추가 계산 비용 없이 다양한 기준 모델보다 뚜렷한 성능 향상을 보였다. GAP은 NTU RGB+D, NTU RGB+D 120, NW-UCLA와 같은 주요 스켈레톤 기반 동작 인식 벤치마크에서 새로운 최고 성능을 달성하였다. 소스 코드는 다음 링크에서 제공된다: https://github.com/MartinXM/GAP.