vor 6 Monaten

Zusammenfassung

Rezenten Video- und Sprach-Vortrainierungsframeworks verfügen über keine Fähigkeit zur Generierung von Sätzen. Wir stellen MV-GPT (Multimodal Video Generative Pretraining) vor, ein neues Vortrainierungsframework zur Lernung aus unbeschrifteten Videos, das effektiv für generative Aufgaben wie multimodale Video-Kommentierung eingesetzt werden kann. Im Gegensatz zu jüngeren Video-Sprache-Vortrainierungsansätzen trainiert unser Framework sowohl einen multimodalen Video-Encoder als auch einen Satz-Decoder gemeinsam. Um den Mangel an Kommentaren in unbeschrifteten Videos zu überwinden, nutzen wir die zukünftige Äußerung als zusätzliche Textquelle und schlagen ein bidirektionales Generierungsziel vor: Wir generieren zukünftige Äußerungen basierend auf dem aktuellen multimodalen Kontext und generieren gleichzeitig die aktuelle Äußerung basierend auf zukünftigen Beobachtungen. Mit diesem Ziel trainieren wir ein Encoder-Decoder-Modell end-to-end, um direkt aus rohen Pixeln und transkribiertem Sprachmaterial eine Kommentierung zu generieren. Unser Modell erreicht auf vier Standardbenchmarks die bisher beste Leistung bei der multimodalen Video-Kommentierung sowie bei anderen Aufgaben des Video-Verständnisses wie VideoQA, Video-Abfrage und Aktionsklassifikation.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

End-to-End Generative Pretraining für multimodale Videozusammenfassung | Paper | HyperAI

Command Palette

End-to-End Generative Pretraining für multimodale Videozusammenfassung

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End Generative Pretraining für multimodale Videozusammenfassung

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End Generative Pretraining für multimodale Videozusammenfassung

Paul Hongsuck Seo Arsha Nagrani Anurag Arnab Cordelia Schmid

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters