2달 전

자기 감독형 비디오 유사성 학습

Giorgos Kordopatis-Zilos; Giorgos Tolias; Christos Tzelepis; Ioannis Kompatsiaris; Ioannis Patras; Symeon Papadopoulos
자기 감독형 비디오 유사성 학습
초록

우리는 S$^2$VS, 즉 자기 감독을 활용한 비디오 유사성 학습 방법을 소개합니다. 자기 감독 학습(Self-Supervised Learning, SSL)은 일반적으로 대리 작업(proxy task)을 통해 깊은 모델을 훈련시키는 데 사용되며, 미세 조정(fine-tuning) 후 목표 작업(target tasks)에서 강력한 전이 능력을 갖추도록 합니다. 본 연구에서는 기존 연구와 달리 SSL을 비디오 유사성 학습에 적용하여 라벨링된 데이터를 사용하지 않고 여러 검색 및 탐지 작업을 동시에 수행할 수 있도록 하였습니다. 이는 인스턴스 구별(instance-discrimination)과 작업 맞춤형 증강(task-tailored augmentations), 그리고 널리 사용되는 InfoNCE 손실 함수와 함께 자기 유사성과 어려운 부정 샘플 유사성을 공동으로 작동시키는 추가적인 손실 함수를 통해 이루어졌습니다.우리는 비디오의 관련성이 다양한 세분화(granularity)로 정의되는 작업에서 우리의 방법론을 벤치마킹했습니다. 이 범위는 비디오 복사본부터 같은 사건이나 사건을 묘사하는 비디오까지 다양합니다. 우리는 단일 보편적 모델을 학습시켜 모든 작업에서 최고 수준의 성능을 달성하였으며, 라벨링된 데이터를 사용하는 기존 방법들을 초월하였습니다. 코드와 사전 훈련된 모델들은 공개적으로 이용 가능하며, 다음 주소에서 확인할 수 있습니다: https://github.com/gkordo/s2vs