Pretext-Contrastive Learning: Self-supervised Video Representation 학습의 좋은 관행으로 향해

최근, 자기 지도 비디오 특성 학습에서 예문 작업(pretext-task) 기반 방법들이 연이어 제안되고 있습니다. 한편, 대조 학습(contrastive learning) 방법들도 좋은 성능을 보여주고 있습니다. 일반적으로 새로운 방법들은 이전의 것들보다 '더 나은' 시간적 정보를 포착할 수 있다고 주장하며, 이로 인해 더 우수한 성능을 내는 것으로 평가됩니다. 그러나 각 방법 사이에 설정 차이가 존재하여 어느 것이 더 우수한지 결론 내리기는 어렵습니다. 이러한 방법들이 가능한 한 그들의 성능 한계에 가까워졌을 때 비교한다면 더욱 설득력 있게 결론을 도출할 수 있을 것입니다. 본 논문에서는 하나의 예문 작업 베이스라인에서 출발하여, 대조 학습, 데이터 전처리, 데이터 증강과 결합시켜 얼마나 더 발전할 수 있는지를 탐구합니다. 광범위한 실험을 통해 적절한 설정이 발견되었으며, 이를 통해 베이스라인보다 큰 개선이 이루어질 수 있음을 확인하였습니다. 이는 예문 작업과 대조 학습 모두를 향상시키는 공동 최적화 프레임워크가 효과적임을 시사합니다. 우리는 이 공동 최적화 프레임워크를 예문-대조 학습(Pretext-Contrastive Learning, PCL)으로 명명합니다. 다른 두 개의 예문 작업 베이스라인은 PCL의 유효성을 검증하는 데 사용되었습니다. 동일한 훈련 방식으로 현재 최신 방법들을 쉽게 능가할 수 있었으며, 이는 우리의 제안이 효과적이고 일반적이음을 보여줍니다. PCL을 표준 훈련 전략으로 취급하고 많은 다른 연구들에 적용하는 것이 편리합니다.