RSPNet: 비지도 동영상 표현 학습을 위한 상대적 속도 인식

우리는 비디오에서 라벨링되지 않은 데이터만을 사용하여 동작과 외관 특성을 학습하는 비지도 비디오 표현 학습을 연구합니다. 이 학습된 표현은 행동 인식과 같은 하류 작업에 재사용될 수 있습니다. 그러나 이 작업은 1) 비디오의 매우 복잡한 시공간 정보와 2) 훈련용 라벨링 데이터의 부족으로 인해 극도로 어려운 문제입니다. 정적 이미지의 표현 학습과 달리, 동작과 외관 특성을 모두 효과적으로 모델링할 수 있는 적절한 자기 지도 작업을 구성하기가 어렵습니다. 최근에는 비디오 재생 속도 예측을 통해 비디오 표현을 학습하려는 몇 가지 시도가 있었습니다. 그러나 비디오에 대한 정확한 속도 라벨을 얻는 것은 쉽지 않습니다. 더욱 중요한 점은, 학습된 모델이 동작 패턴에 집중할 경향이 있어 외관 특성을 잘 학습하지 못할 가능성이 있다는 것입니다. 본 논문에서는 상대적인 재생 속도가 동작 패턴과 더 일관되므로, 이를 통해 표현 학습에 대해 더 효과적이고 안정적인 감독을 제공할 수 있다는 것을 관찰하였습니다. 따라서, 두 개의 비디오 클립 간의 상대적 속도를 라벨로 활용하여 새로운 방식으로 재생 속도를 인식하는 방법을 제안합니다. 이렇게 하면 속도를 잘 인식하고 더 나은 동작 특성을 학습할 수 있습니다. 또한, 외관 특성의 학습을 보장하기 위해 두 개의 비디오 클립 간의 외관 차이를 인식하도록 모델을 강제하는 외관 중심 작업을 추가로 제안합니다. 우리는 두 작업을 공동으로 최적화하면 행동 인식 및 비디오 검색이라는 두 하류 작업에서 성능이 일관되게 향상됨을 보여주었습니다. 특히, UCF101 데이터셋에서 행동 인식 실험에서 사전 훈련용 라벨링 데이터 없이 93.7%의 정확도를 달성하였으며, 이는 ImageNet 지도 사전 훈련 모델보다 우수한 결과입니다. 코드와 사전 훈련된 모델은 https://github.com/PeihaoChen/RSPNet에서 확인할 수 있습니다.