
초록
행동 인식의 범주 수가 급속히 증가하고 있습니다. 따라서 각 범주에 대한 전통적인 모델을 학습하기 위해 충분한 훈련 데이터를 수집하는 것이 점점 더 어려워지고 있습니다. 이 문제는 최근 인기 있는 '제로-샷 학습' (Zero-Shot Learning, ZSL) 패러다임을 통해 완화될 수 있습니다. 이 프레임워크에서는 시각적 특징과 각 범주의 인간이 해석 가능한 의미론적 설명 사이의 매핑을 구축하여, 훈련 데이터가 전혀 없는 상태에서도 범주를 인식할 수 있게 합니다. 기존의 ZSL 연구들은 주로 이미지 데이터와 속성 기반 의미론 표현에 초점을 맞추고 있습니다. 본 논문에서는 현대 비디오 행동 인식 과제에서 제로-샷 인식을 다루며, 의미론적 단어 벡터 공간을 비디오와 범주 라벨을 임베딩하는 공통 공간으로 사용합니다. 이는 복잡한 행동을 포함하는 비디오의 시공간 특징과 의미론적 공간 사이의 매핑이 더욱 복잡하고 학습하기 어렵기 때문에 더 도전적입니다. 우리는 간단한 자기 학습 및 데이터 증강 전략이 이러한 매핑의 효율성을 크게 개선할 수 있음을 보여줍니다. HMDB51 및 UCF101 등의 인간 행동 데이터셋에서 수행된 실험은 우리의 접근 방식이 최신 제로-샷 행동 인식 성능을 달성함을 입증합니다.