HyperAIHyperAI
vor 2 Monaten

VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung

Xu, Hu ; Ghosh, Gargi ; Huang, Po-Yao ; Okhonko, Dmytro ; Aghajanyan, Armen ; Metze, Florian ; Zettlemoyer, Luke ; Feichtenhofer, Christoph
VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung
Abstract

Wir stellen VideoCLIP vor, einen kontrastiven Ansatz zur Vortrainierung eines einheitlichen Modells für die zero-shot-Videobearbeitung und -textverarbeitung, ohne dabei im Downstream-Prozess irgende Beschriftungen zu verwenden. VideoCLIP trainiert einen Transformer für Videobearbeitung und Textverarbeitung, indem es zeitlich überlappende positive Videotextpaare mit schwierigen Negativen aus der nächsten Nachbarschaftsrecherche kontrastiert. Unsere Experimente an einer vielfältigen Reihe von Downstream-Aufgaben, einschließlich sequenzbasierter Text-Videosuche (sequence-level text-video retrieval), VideoQA, token-basierter Aktionsskalierung (token-level action localization) und Aktionssegmentierung zeigen eine Stand-der-Technik-Leistung, die frühere Arbeiten übertrifft und in manchen Fällen sogar überwacht lernende Ansätze übertreffen kann. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.

VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung | Neueste Forschungsarbeiten | HyperAI