소수 샘플 동작 인식을 위한 순열 불변 주의 메커니즘

많은 소수 학습 모델은 이미지 인식에 초점을 맞추고 있다. 반면, 우리는 비디오에서 소수 액션 인식이라는 도전적인 과제에 도전한다. 우리는 단기적인 동작 패턴을 포착하기 위해 공간-시간 비디오 블록을 위한 C3D 인코더를 기반으로 한다. 이러한 인코딩된 블록들은 순열 불변 풀링(permutation-invariant pooling)을 통해 집계되며, 이는 동작 길이의 변화와 장기적인 시간적 종속성에 대해 강건한 성능을 보장한다. 같은 클래스의 클립 내에서도 반복되기 어려운 장기적 패턴이 존재하므로, 이러한 패턴을 효과적으로 포착할 수 있다. 이후 풀링된 표현은 간단한 관계 기술자(relation descriptors)로 결합되며, 이는 '쿼리 클립'과 '서포트 클립'을 인코딩한다. 마지막으로, 관계 기술자는 쿼리 클립과 서포트 클립 간의 유사도 학습을 목적으로 하는 비교기(comparator)에 입력된다. 특히, 풀링 과정에서 블록 기여도를 재가중하기 위해 공간적 및 시간적 주의 메커니즘(attention modules)과 자기지도 학습(self-supervision)을 활용한다. 자연스러운 클립(동일 클래스)에서는 시간적 분포의 변화(temporal distribution shift)가 존재한다. 즉, 구분력 있는 시간적 동작 핫스팟의 위치가 다양하게 변한다. 따라서 클립의 블록을 무작위로 재배열하고, 이를 비재배열된 클립의 유사하게 재배열된 주의 영역과 정렬함으로써, 블록(따라서 장기적 핫스팟)의 순열에 대해 불변(invariant)인 주의 메커니즘을 학습한다. 제안하는 방법은 HMDB51, UCF101, miniMIT 데이터셋에서 기존 최고 성능(SOTA)을 초과하는 성능을 보였다.