
적대적 변동(adversarial perturbations)은 데이터를 미세하게 변경하면서도 그렇지 않으면 정확한 분류기를 실패시키는 노이즈와 유사한 패턴입니다. 본 논문에서는 이러한 변동을 새로운 대조 학습(contrastive learning) 설정에서 활용하여 부정 샘플(negative samples)을 생성하고, 이를 통해 개선된 비디오 표현(video representations)을 생산하는 방법을 제안합니다. 이를 위해, 프레임별 비디오 인식(per-frame video recognition)에 대해 잘 훈련된 딥 모델(deep model)을 기반으로 적대적 노이즈(adversarial noise)를 생성합니다. 원본 데이터 특성(original data features)과 그 변동된 대응체(perturbed counterparts)를 각각 사용하여 양성 및 부정 봉투(bags)를 생성합니다. 전통적인 대조 학습 방법과 달리, 우리는 두 봉투를 구분할 수 있는 차별화된 초평면(discriminative hyperplanes) 집합을 배우는 이진 분류 문제(binary classification problem)를 개발합니다. 이 초평면 집합은 비디오의 설명자(descriptor)로 사용되며, 이를 '차별화된 부분공간 풀링(discriminative subspace pooling)'이라고 명명합니다. 변동된 특성이 원래 특성과 혼동되기 쉬운 데이터 클래스에 속하기 때문에, 차별화된 부분공간은 원래 데이터를 더 잘 나타내는 특성 공간의 일부를 특징화할 것이며, 따라서 강건한 비디오 표현을 제공할 가능성이 있습니다. 이러한 설명자를 배우기 위해, 우리는 Stiefel 다양체(Stiefel manifold)에서 부분공간 학습 목적(subspace learning objective)을 정식화하고, 이를 효율적으로 해결하기 위해 리만 최적화 방법(Riemannian optimization methods)을 활용합니다. 여러 비디오 데이터셋에서 실험을 수행하였으며, 최신 연구 결과(state-of-the-art results)를 보여주었습니다.