부품 인식 통합 표현을 이용한 제로샷 동작 인식의 언어와 스켈레톤 연구

감독된 스켈레톤 기반 행동 인식 분야에서 놀라운 진전이 이루어졌지만, 제로샷 인식의 도전은 아직 상대적으로 연구되지 않았습니다. 본 논문에서는 라벨 수준의 의미와 전역 스켈레톤 특성을 일치시키는 것만으로는 이미 관찰된 클래스에서 관찰되지 않은 클래스로 국소적으로 일관된 시각적 지식을 효과적으로 이전하는 것이 불충분하다고 주장합니다. 이러한 한계를 극복하기 위해, 우리는 언어와 스켈레톤 사이의 국소 및 전역 규모에서 시각-의미 일치를 탐구하기 위한 부분 인식 통합 표현(Part-aware Unified Representation between Language and Skeleton, PURLS)을 소개합니다. PURLS는 새로운 프롬프팅 모듈과 혁신적인 파티셔닝 모듈을 도입하여 다양한 수준에서 정렬된 텍스트 및 시각적 표현을 생성합니다. 전자는 사전 학습된 GPT-3을 활용하여 원본 행동 라벨로부터 전역 및 국소(신체 부위 기반 및 시간 간격 기반) 운동에 대한 세부적인 설명을 추론합니다. 후자는 주어진 설명과 의미적으로 관련된 모든 신체 관절 운동의 시각적 특성을 그룹화하기 위해 적응형 샘플링 전략을 사용합니다. 우리의 접근 방식은 다양한 스켈레톤/언어 백본과 세 개의 대규모 데이터셋, 즉 NTU-RGB+D 60, NTU-RGB+D 120, 그리고 새로 구성한 데이터셋인 Kinetics-skeleton 200에서 평가되었습니다. 결과는 PURLS의 보편성과 우수한 성능을 입증하며, 이전의 스켈레톤 기반 솔루션들과 다른 영역에서의 표준 베이스라인들을 능가하였습니다. 소스 코드는 https://github.com/azzh1/PURLS에서 확인할 수 있습니다.