HyperAIHyperAI

Command Palette

Search for a command to run...

UniVL: Ein einheitliches Video- und Sprach-Vortrainingsmodell für multimodale Verständnis und Generierung

Huaishao Luo Lei Ji Botian Shi Haoyang Huang Nan Duan Tianrui Li Jason Li Taroon Bharti Ming Zhou

Zusammenfassung

Mit dem jüngsten Erfolg der Vortrainierungstechnik für NLP- und Bild-Sprache-Aufgaben werden zunehmend Ansätze zur Vortrainierung von Video-Sprache-Modellen entwickelt, um Aufgaben im Bereich der Video-Text-Verarbeitung zu verbessern. Allerdings sind die meisten bestehenden multimodalen Modelle hauptsächlich für Verständnisaufgaben vortrainiert, was zu einer Diskrepanz zwischen Vortrainierung und Feinabstimmung bei Generierungsaufgaben führt. In dieser Arbeit wird UniVL vorgestellt: ein einheitliches Vortrainierungsmodell für Video und Sprache, das sowohl für multimodale Verständnis- als auch für Generierungsaufgaben geeignet ist. Das Modell besteht aus vier Komponenten: zwei einmodalen Encodern, einem Cross-Encoder und einem Decoder mit Transformer-Grundgerüst. Fünf Zielsetzungen – Video-Text-Verbund, konditioniertes maskiertes Sprachmodell (CMLM), konditioniertes maskiertes Frame-Modell (CMFM), Video-Text-Ausrichtung und Sprachrekonstruktion – werden entworfen, um jeweils die einzelnen Komponenten zu trainieren. Zudem werden zwei Vortrainierungsstrategien entwickelt: StagedP (stufenweises Vortraining) und EnhancedV (verbesserte Video-Repräsentation), um den Trainingsprozess von UniVL effektiver zu gestalten. Die Vortrainierung erfolgt auf einer großen Datensammlung an Anleitungsvideos, HowTo100M. Experimentelle Ergebnisse zeigen, dass UniVL starke Video-Text-Repräsentationen lernen kann und state-of-the-art-Ergebnisse auf fünf nachgeschalteten Aufgaben erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp