Command Palette
Search for a command to run...
VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung
VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung
Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer
Zusammenfassung
Wir stellen VideoCLIP vor, einen kontrastiven Ansatz zur Vortrainierung eines einheitlichen Modells für die zero-shot-Videobearbeitung und -textverarbeitung, ohne dabei im Downstream-Prozess irgende Beschriftungen zu verwenden. VideoCLIP trainiert einen Transformer für Videobearbeitung und Textverarbeitung, indem es zeitlich überlappende positive Videotextpaare mit schwierigen Negativen aus der nächsten Nachbarschaftsrecherche kontrastiert. Unsere Experimente an einer vielfältigen Reihe von Downstream-Aufgaben, einschließlich sequenzbasierter Text-Videosuche (sequence-level text-video retrieval), VideoQA, token-basierter Aktionsskalierung (token-level action localization) und Aktionssegmentierung zeigen eine Stand-der-Technik-Leistung, die frühere Arbeiten übertrifft und in manchen Fällen sogar überwacht lernende Ansätze übertreffen kann. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.