
스켈레톤 기반 제로샷 액션 인식은 알려진 스켈레톤 기반 액션의 사전 학습된 지식과 알려진 및 알려지지 않은 카테고리에서 공유되는 의미 설명 공간을 바탕으로 알려지지 않은 인간 행동을 인식하는 것을 목표로 합니다. 그러나 이전 연구들은 알려진 스켈레톤 표현 공간과 의미 설명 공간 사이의 다리 구축에 주로 초점을 맞추었으며, 이러한 두 공간 간의 세부 정렬(fine-grained alignment)을 무시하여 고유사도 액션 카테고리를 구분하는 데 있어서 최적의 성능을 내지 못했습니다. 이러한 도전 과제를 해결하기 위해, 우리는 세부 수준에서 스켈레톤 기반 제로샷 액션 인식(STAR)을 위한 부가 정보(side information)와 쌍방향 프롬프트(dual-prompts) 학습 방법을 제안합니다. 구체적으로, 1) 우리는 스켈레톤의 위상 구조(topology structure)를 기반으로 여러 부분으로 분해하고, 인간 신체 운동의 다중 부분 설명(multi-part descriptions)과 관련된 부가 정보를 도입하여 스켈レ톤과 의미 공간 간의 세부 정렬을 수행합니다; 2) 우리는 시각적 속성(visual-attribute) 프롬프트와 의미 부분(semantic-part) 프롬프트를 설계하여 각각 스켈레톤 공간 내에서 클래스 내 일관성을 개선하고 의미 공간 내에서 클래스 간 분리를 향상시키며, 이를 통해 고유사도 행동들을 구분할 수 있도록 합니다. 광범위한 실험 결과는 우리의 방법이 NTU RGB+D, NTU RGB+D 120, 그리고 PKU-MMD 데이터셋에서 ZSL 및 GZSL 설정에서 최신 성능(state-of-the-art performance)을 달성함을 보여줍니다.