15일 전

스켈레톤 기반 동작 인식을 위한 생성형 액션 설명 프롬프트

Wangmeng Xiang, Chao Li, Yuxuan Zhou, Biao Wang, Lei Zhang
스켈레톤 기반 동작 인식을 위한 생성형 액션 설명 프롬프트
초록

스켈레톤 기반 동작 인식은 최근 큰 주목을 받고 있다. 기존의 스켈레톤 기반 동작 인식 접근법은 일반적으로 one-hot 분류 문제로 공식화되며, 동작 간의 의미적 관계를 충분히 활용하지 못한다. 예를 들어, “승리의 손짓”과 “엄지척”은 손짓 동작의 두 가지 예로, 주요 차이점은 손의 움직임에 있다. 이러한 정보는 동작 클래스의 범주형 one-hot 인코딩에서는 무시되지만, 동작 설명을 통해 드러날 수 있다. 따라서 학습 과정에서 동작 설명을 활용하면 표현 학습에 긍정적인 영향을 줄 수 있다. 본 연구에서는 스켈레톤 기반 동작 인식을 위한 생성형 동작 설명 프롬프트(Generative Action-description Prompts, GAP) 방법을 제안한다. 구체적으로, 사전 학습된 대규모 언어 모델을 지식 엔진으로 활용하여 동작의 신체 부위 움직임에 대한 텍스트 설명을 자동으로 생성하고, 텍스트 인코더를 이용해 각 신체 부위의 특징 벡터를 생성함으로써 다중 모달 학습 프레임워크를 제안한다. 이 프레임워크는 스켈레톤 인코더의 동작 표현 학습을 감독한다. 실험 결과, GAP 방법은 추론 시 추가 계산 비용 없이 다양한 기준 모델보다 뚜렷한 성능 향상을 보였다. GAP은 NTU RGB+D, NTU RGB+D 120, NW-UCLA와 같은 주요 스켈레톤 기반 동작 인식 벤치마크에서 새로운 최고 성능을 달성하였다. 소스 코드는 다음 링크에서 제공된다: https://github.com/MartinXM/GAP.

스켈레톤 기반 동작 인식을 위한 생성형 액션 설명 프롬프트 | 최신 연구 논문 | HyperAI초신경