2달 전
Zero-shot Skeleton-based Action Recognition via Mutual Information Estimation and Maximization 제로샷 스켈레톤 기반 행동 인식을 위한 상호 정보 추정 및 최대화
Yujie Zhou; Wenwen Qiang; Anyi Rao; Ning Lin; Bing Su; Jiaqi Wang

초록
제로샷 스켈레톤 기반 행동 인식은 훈련된 데이터 범주에서 미리 본 적 없는 범주의 행동을 인식하는 것을 목표로 합니다. 핵심은 시각적 공간과 의미적 공간 사이의 연결을 이미 본 범주에서 미리 본 적 없는 범주로 구축하는 것입니다. 이전 연구들은 주로 시퀀스를 단일 특징 벡터로 인코딩하는 데 초점을 맞추었으며, 그 다음에 임베디드 공간 내 동일한 앵커 포인트로 특징들을 매핑했습니다. 그러나 이러한 접근 방식은 1) 전역적인 시각적/의미적 분포 정렬을 무시하여 두 공간 간의 진정한 상호 의존성을 포착하는 데 제약이 생기고, 2) 시간 정보를 간과하여 행동 힌트가 풍부한 프레임별 특징들이 직접 단일 특징 벡터로 풀링되는 문제를 가지고 있습니다. 우리는 상호 정보량(MI) 추정 및 최대화를 통해 새로운 제로샷 스켈레톤 기반 행동 인식 방법을 제안합니다. 구체적으로, 1) 시각적 공간과 의미적 공간 간의 분포 정렬을 위해 MI를 최대화하고, 2) 더 많은 프레임이 관찰될수록 MI가 증가하도록 촉진함으로써 시간 정보를 활용하여 MI를 추정합니다. 세 개의 대규모 스켈레톤 행동 데이터셋에 대한 광범위한 실험 결과는 우리의 방법론이 효과적임을 확인해주었습니다. 코드: https://github.com/YujieOuO/SMIE.