HyperAIHyperAI
vor 3 Monaten

End-to-End Generative Pretraining für multimodale Videozusammenfassung

Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid
End-to-End Generative Pretraining für multimodale Videozusammenfassung
Abstract

Rezenten Video- und Sprach-Vortrainierungsframeworks verfügen über keine Fähigkeit zur Generierung von Sätzen. Wir stellen MV-GPT (Multimodal Video Generative Pretraining) vor, ein neues Vortrainierungsframework zur Lernung aus unbeschrifteten Videos, das effektiv für generative Aufgaben wie multimodale Video-Kommentierung eingesetzt werden kann. Im Gegensatz zu jüngeren Video-Sprache-Vortrainierungsansätzen trainiert unser Framework sowohl einen multimodalen Video-Encoder als auch einen Satz-Decoder gemeinsam. Um den Mangel an Kommentaren in unbeschrifteten Videos zu überwinden, nutzen wir die zukünftige Äußerung als zusätzliche Textquelle und schlagen ein bidirektionales Generierungsziel vor: Wir generieren zukünftige Äußerungen basierend auf dem aktuellen multimodalen Kontext und generieren gleichzeitig die aktuelle Äußerung basierend auf zukünftigen Beobachtungen. Mit diesem Ziel trainieren wir ein Encoder-Decoder-Modell end-to-end, um direkt aus rohen Pixeln und transkribiertem Sprachmaterial eine Kommentierung zu generieren. Unser Modell erreicht auf vier Standardbenchmarks die bisher beste Leistung bei der multimodalen Video-Kommentierung sowie bei anderen Aufgaben des Video-Verständnisses wie VideoQA, Video-Abfrage und Aktionsklassifikation.