HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCLIP: Kontrastives Vortraining für die zeroshot-Videotext-Verständigung

Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

Zusammenfassung

Wir stellen VideoCLIP vor, einen kontrastiven Ansatz zur Vortrainierung eines einheitlichen Modells für die zero-shot-Videobearbeitung und -textverarbeitung, ohne dabei im Downstream-Prozess irgende Beschriftungen zu verwenden. VideoCLIP trainiert einen Transformer für Videobearbeitung und Textverarbeitung, indem es zeitlich überlappende positive Videotextpaare mit schwierigen Negativen aus der nächsten Nachbarschaftsrecherche kontrastiert. Unsere Experimente an einer vielfältigen Reihe von Downstream-Aufgaben, einschließlich sequenzbasierter Text-Videosuche (sequence-level text-video retrieval), VideoQA, token-basierter Aktionsskalierung (token-level action localization) und Aktionssegmentierung zeigen eine Stand-der-Technik-Leistung, die frühere Arbeiten übertrifft und in manchen Fällen sogar überwacht lernende Ansätze übertreffen kann. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp