
초록
제로샷 학습(ZSL)은 모든 범주에 대한 주석된 예제를 필요로 하는 기존 모델 훈련 요구사항을 우회함으로써 시각 인식의 확장을 약속합니다. 이는 보조 데이터에서 저수준 특성과 라벨 공간의 의미적 설명을 연결하는 매핑, 즉 시각-의미 매핑을 설정하여 달성됩니다. 학습된 매핑을 재사용하여 대상 비디오를 임베딩 공간으로 투영하면 최근접 이웃 추론을 통해 새로운 클래스를 인식할 수 있습니다. 그러나 기존 ZSL 방법들은 동일한 매핑이 분리된 보조 클래스와 대상 클래스에 대해 가정됨으로써 내재적으로 유발되는 보조-대상 도메인 시프트에 영향을 받습니다. 이는 대상 데이터에서 ZSL 인식의 일반화 정확도를 저하시킵니다. 본 연구에서는 더 나은 일반화 성질을 갖는 시각-의미 매핑과 관련성이 있는 보조 데이터를 우선시하는 동적 데이터 재가중 방법을 제안하여, 모델 중심 및 데이터 중심 방식으로 이러한 도메인 시프트에 걸쳐 ZSL의 일반화 능력을 개선합니다. 구체적으로: (1) 우리는 의미 매핑 파라미터가 저차원 다양체 위에 존재하도록 제약함으로써 일반화를 개선하기 위해 다중 작업 시각-의미 매핑을 소개하고, (2) 대상 도메인과의 관련성을 고려하여 가중치를 부여한 추가 인스턴스로 보조 데이터 풀을 확장하는 우선순위 기반 데이터 증강 방법을 탐구합니다. 제안된 새로운 모델은 어려운 제로샷 행동 인식 문제에 적용되어 기존 ZSL 모델보다 우수한 점을 입증합니다.