VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung

Wir stellen VideoCLIP vor, einen kontrastiven Ansatz zur Vortrainierung eines einheitlichen Modells für die zero-shot-Videobearbeitung und -textverarbeitung, ohne dabei im Downstream-Prozess irgende Beschriftungen zu verwenden. VideoCLIP trainiert einen Transformer für Videobearbeitung und Textverarbeitung, indem es zeitlich überlappende positive Videotextpaare mit schwierigen Negativen aus der nächsten Nachbarschaftsrecherche kontrastiert. Unsere Experimente an einer vielfältigen Reihe von Downstream-Aufgaben, einschließlich sequenzbasierter Text-Videosuche (sequence-level text-video retrieval), VideoQA, token-basierter Aktionsskalierung (token-level action localization) und Aktionssegmentierung zeigen eine Stand-der-Technik-Leistung, die frühere Arbeiten übertrifft und in manchen Fällen sogar überwacht lernende Ansätze übertreffen kann. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.