HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Generative Pretraining für multimodale Videozusammenfassung

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

Rezenten Video- und Sprach-Vortrainierungsframeworks verfügen über keine Fähigkeit zur Generierung von Sätzen. Wir stellen MV-GPT (Multimodal Video Generative Pretraining) vor, ein neues Vortrainierungsframework zur Lernung aus unbeschrifteten Videos, das effektiv für generative Aufgaben wie multimodale Video-Kommentierung eingesetzt werden kann. Im Gegensatz zu jüngeren Video-Sprache-Vortrainierungsansätzen trainiert unser Framework sowohl einen multimodalen Video-Encoder als auch einen Satz-Decoder gemeinsam. Um den Mangel an Kommentaren in unbeschrifteten Videos zu überwinden, nutzen wir die zukünftige Äußerung als zusätzliche Textquelle und schlagen ein bidirektionales Generierungsziel vor: Wir generieren zukünftige Äußerungen basierend auf dem aktuellen multimodalen Kontext und generieren gleichzeitig die aktuelle Äußerung basierend auf zukünftigen Beobachtungen. Mit diesem Ziel trainieren wir ein Encoder-Decoder-Modell end-to-end, um direkt aus rohen Pixeln und transkribiertem Sprachmaterial eine Kommentierung zu generieren. Unser Modell erreicht auf vier Standardbenchmarks die bisher beste Leistung bei der multimodalen Video-Kommentierung sowie bei anderen Aufgaben des Video-Verständnisses wie VideoQA, Video-Abfrage und Aktionsklassifikation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp