2달 전

시간 정렬을 통한 소수 샘플 비디오 분류

Kaidi Cao; Jingwei Ji; Zhangjie Cao; Chien-Yi Chang; Juan Carlos Niebles
시간 정렬을 통한 소수 샘플 비디오 분류
초록

최근 몇 개의 라벨된 예제만으로 새로운 클래스를 인식할 수 있는 모델에 대한 관심이 증가하고 있습니다. 본 논문에서는 이전에 보지 못한 비디오를 분류할 수 있는 새로운 소수 샘플 학습(few-shot learning) 프레임워크인 시간적 정렬 모듈(Temporal Alignment Module, TAM)을 제안합니다. 대부분의 이전 연구들이 장기적인 시간 순서 정보를 무시하는 반면, 제안된 모델은 비디오 데이터에서 시간 순서 정보를 명시적으로 활용하여 강력한 데이터 효율성을 제공합니다. 구체적으로, TAM은 쿼리 비디오와 새로운 클래스 프록시 간의 거리 값을 각 프레임별 거리를 정렬 경로에 따라 평균화하여 계산합니다. 또한 TAM에 연속 완화(continuous relaxation)를 도입하여 모델이 소수 샘플 학습 목표를 직접 최적화하도록 엔드 투 엔드 방식으로 학습될 수 있도록 하였습니다. 우리는 Kinetics 및 Something-Something-V2라는 두 가지 어려운 실제 데이터셋에서 TAM을 평가하였으며, 제안된 모델이 다양한 경쟁 기준모델(baselines) 대비 소수 샘플 비디오 분류에서 상당한 개선 효과를 보임을 입증하였습니다.

시간 정렬을 통한 소수 샘플 비디오 분류 | 최신 연구 논문 | HyperAI초신경