
초록
대부분의 기존 방법들은 관측된 클래스 내에서 시각-의미 표현을 정렬함으로써 제로샷 비디오 분류 문제를 해결하나, 이는 미관측 클래스로의 일반화 능력을 제한한다. 본 논문에서는 관측된 클래스와 미관측 클래스 모두에 대해 표현의 정렬성과 균일성을 유지하는 엔드투엔드 프레임워크를 제안한다. 구체적으로, 시각-의미 특징을 동시에 정렬(즉, alignment)하고 학습된 특징이 균일하게 분포되도록 유도하는(즉, uniformity) 감독형 대조 손실을 제안한다. 기존 방법들이 정렬성만 고려하는 것과 달리, 본 연구는 균일성을 도입하여 기존 특징의 최대 정보를 보존함으로써 미관측 특징이 관측된 데이터 주변에 위치할 확률을 높인다. 또한, 관측된 클래스의 특징을 보간 및 외삽하는 방식으로 미관측 클래스의 특징을 합성하는 클래스 생성기를 제안한다. 더불어, 두 가지 특성인 근접성(closeness)과 분산성(dispersion)을 정량화하는 새로운 지표를 도입하여 모델의 일반화 능력을 평가하는 새로운 기준으로 활용한다. 실험 결과, 제안한 방법은 UCF101에서 기존 최고 성능(SoTA) 대비 28.1%의 상대적 개선, HMDB51에서는 27.0%의 상대적 개선을 달성하며 기존 방법을 크게 능가한다. 코드는 공개되어 있다.