2달 전
크로스 스트림 프로토타입 대조를 이용한 자기 감독 비디오 표현 학습
Martine Toering; Ioannis Gatopoulos; Maarten Stol; Vincent Tao Hu

초록
인스턴스 수준의 대조적 학습 기법은 데이터 증강과 대조 손실 함수에 의존하여 시각적 표현 학습 분야에서 큰 성공을 거두었습니다. 그러나 이러한 기법들은 여러 증강 인스턴스를 처리하기 때문에 비디오의 풍부한 동역학 구조를 활용하는 데는 적합하지 않습니다. 본 논문에서는 "비디오 크로스 스트림 프로토타입 대조"라는 새로운 방법을 제안합니다. 이 방법은 RGB와 광학 흐름(Optical Flow) 뷰에서 일관된 프로토타입 할당을 예측하며, 샘플 집합 위에서 작동합니다. 구체적으로, 최적화 과정을 번갈아가며 수행합니다. 한 스트림을 최적화할 때 모든 뷰는 하나의 스트림 프로토타입 벡터 집합으로 매핑됩니다. 각 할당은 예측과 일치하지 않는 모든 뷰를 사용하여 예측되며, 이를 통해 표현이 할당된 프로토타입에 더 가까워지도록 합니다. 결과적으로, 추론 시 명시적인 광학 흐름 계산 없이도 움직임 정보가 내재된 보다 효율적인 비디오 임베딩이 학습됩니다. 우리는 가장 가까운 이웃 비디오 검색 및 행동 인식에서 최고 수준의 결과를 얻었으며, S3D 백본을 사용하여 UCF101 데이터셋에서 이전 최고 성능보다 +3.2% 개선된 결과(Top-1 정확도 90.5%)를 달성했습니다. 또한 R(2+1)D 백본을 사용하여 UCF101 데이터셋에서는 +7.2%, HMDB51 데이터셋에서는 +15.1% 개선된 결과를 얻었습니다.