2달 전

VideoCLIP: Zero-shot 비디오-텍스트 이해를 위한 대조적 사전 학습

Xu, Hu ; Ghosh, Gargi ; Huang, Po-Yao ; Okhonko, Dmytro ; Aghajanyan, Armen ; Metze, Florian ; Zettlemoyer, Luke ; Feichtenhofer, Christoph
VideoCLIP: Zero-shot 비디오-텍스트 이해를 위한 대조적 사전 학습
초록

우리는 VideoCLIP을 소개합니다. 이는 라벨이 없는 다운스트림 작업에서 제로샷 비디오 및 텍스트 이해를 위한 통합 모델을 사전 학습하는 대조적 접근 방식입니다. VideoCLIP은 가장 가까운 이웃 검색에서 얻은 어려운 부정 예와 시간적으로 중복되는 긍정적인 비디오-텍스트 쌍을 대조하여 비디오와 텍스트의 트랜스포머를 학습시킵니다. 다양한 다운스트림 작업, 즉 시퀀스 수준의 텍스트-비디오 검색, VideoQA, 토큰 수준의 동작 위치 추정, 그리고 동작 분할에 대한 실험 결과가 최신 연구를 능가하며, 일부 경우에서는 지도 학습 접근 방식보다 우수한 성능을 보였습니다. 코드는 https://github.com/pytorch/fairseq/tree/main/examples/MMPT에서 제공됩니다.