17일 전
자기지도 학습 기반 비디오 트랜스포머
Kanchana Ranasinghe, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan, Michael Ryoo

초록
본 논문에서는 레이블이 없는 영상 데이터를 이용하여 영상 트랜스포머에 대한 자체 학습(train) 방법을 제안한다. 주어진 영상으로부터 공간 크기와 프레임 속도를 다양하게 조절한 국소적 및 전역적 시공간적 시각(view)을 생성한다. 제안하는 자체 학습 목표는 동일한 영상에 대한 다양한 시각의 특징을 일치시키고, 행동의 시공간적 변형에 대해 불변(invariant)하도록 한다. 저희가 아는 바에 따르면, 제안하는 방법은 자체 학습 영상 트랜스포머(Self-supervised Video Transformer, SVT)에서 음성 샘플(negative samples)이나 전용 메모리 벡터 은행(memory banks)에 대한 의존성을 줄이는 최초의 접근법이다. 또한 트랜스포머 모델의 유연성 덕분에, 동적으로 조정된 위치 인코딩을 활용하여 단일 아키텍처 내에서 느리고 빠른 영상 처리를 지원하며, 시공간 차원을 따라 장기적 관계 모델링이 가능하다. 제안한 방법은 네 가지 행동 인식 벤치마크(Kinetics-400, UCF-101, HMDB-51, SSv2)에서 뛰어난 성능을 보이며, 작은 배치 크기에서도 빠르게 수렴한다. 코드: https://git.io/J1juJ