
초록
현재의 행동 인식 시스템은 특정 행동을 인식하기 위해 대량의 학습 데이터를 요구한다. 최근 연구들은 미지의 카테고리 또는 레이블이 적은 카테고리에 대한 분류기를 학습하기 위해 제로샷 및 희소 샷 학습(Zero-shot and Few-shot Learning) 패러다임을 탐색하고 있다. 객체 인식 분야에서와 유사한 접근 방식을 따르며, 이러한 방법들은 외부 지식 소스(예: 언어 도메인의 지식 그래프)를 활용한다. 그러나 객체와 달리, 행동에 가장 적합한 지식 표현 방식은 명확하지 않다. 본 논문에서는 제로샷 및 희소 샷 행동 인식에 활용될 수 있는 지식 그래프(KG)에 대해 더 깊이 있는 이해를 도모하고자 한다. 구체적으로, 지식 그래프를 구성하는 세 가지 다른 메커니즘—행동 임베딩(action embeddings), 행동-객체 임베딩(action-object embeddings), 시각적 임베딩(visual embeddings)—을 연구한다. 다양한 실험 설정에서 서로 다른 지식 그래프가 미치는 영향에 대해 광범위한 분석을 제시한다. 마지막으로, 제로샷 및 희소 샷 접근법에 대한 체계적인 연구를 가능하게 하기 위해, Kinetics 데이터셋에서 학습된 모델로부터의 지식 전이를 평가하기 위한 개선된 평가 프레임워크를 UCF101, HMDB51, Charades 데이터셋 기반으로 제안한다.