시공간 대조적 비디오 표현 학습

우리는 라벨이 없는 비디오에서 시공간 시각 표현을 학습하기 위한 자기 감독형 대조적 비디오 표현 학습(Contrastive Video Representation Learning, CVRL) 방법을 제시합니다. 우리의 표현은 대조 손실을 사용하여 학습되며, 같은 짧은 비디오에서 추출한 두 개의 증강 클립은 임베딩 공간에서 서로 가까워지도록 하며, 다른 비디오에서 추출한 클립들은 서로 멀어지도록 합니다. 우리는 비디오 자기 감독 학습에 적합한 데이터 증강의 요소를 연구하고, 공간 정보와 시간 정보가 모두 중요하다는 것을 발견했습니다. 이를 바탕으로 우리는 공간적 및 시간적 힌트를 포함하는 데이터 증강을 신중하게 설계하였습니다. 구체적으로, 각 프레임에 강력한 공간 증강을 적용하면서도 프레임 간의 시간 일관성을 유지하도록 하는 시간 일관성 있는 공간 증강 방법을 제안합니다. 또한, 시간적으로 멀리 떨어진 클립들에 대해 과도하게 불변성을 강제하지 않기 위해 샘플링 기반의 시간 증강 방법도 제안합니다. Kinetics-600 데이터셋에서 CVRL로 학습된 표현을 사용하여 훈련된 선형 분류기는 3D-ResNet-50 (R3D-50) 백본을 사용할 때 70.4%의 Top-1 정확도를 달성하며, 동일한 확장 R3D-50을 사용할 때 ImageNet 감독 예학습보다 15.7%, SimCLR 비감독 예학습보다 18.8% 우수한 성능을 보입니다. 더 큰 R3D-152 (필터 2배) 백본을 사용하면 CVRL의 성능은 더욱 향상되어 72.9%의 정확도를 달성하며, 비감독과 감독 비디오 표현 학습 사이의 격차를 크게 좁힙니다. 우리의 코드와 모델은 https://github.com/tensorflow/models/tree/master/official/ 에서 제공될 예정입니다.