UniVL: Ein einheitliches Video- und Sprach-Vortrainingsmodell für multimodale Verständnis und Generierung

Mit dem jüngsten Erfolg der Vortrainierungstechnik für NLP- und Bild-Sprache-Aufgaben werden zunehmend Ansätze zur Vortrainierung von Video-Sprache-Modellen entwickelt, um Aufgaben im Bereich der Video-Text-Verarbeitung zu verbessern. Allerdings sind die meisten bestehenden multimodalen Modelle hauptsächlich für Verständnisaufgaben vortrainiert, was zu einer Diskrepanz zwischen Vortrainierung und Feinabstimmung bei Generierungsaufgaben führt. In dieser Arbeit wird UniVL vorgestellt: ein einheitliches Vortrainierungsmodell für Video und Sprache, das sowohl für multimodale Verständnis- als auch für Generierungsaufgaben geeignet ist. Das Modell besteht aus vier Komponenten: zwei einmodalen Encodern, einem Cross-Encoder und einem Decoder mit Transformer-Grundgerüst. Fünf Zielsetzungen – Video-Text-Verbund, konditioniertes maskiertes Sprachmodell (CMLM), konditioniertes maskiertes Frame-Modell (CMFM), Video-Text-Ausrichtung und Sprachrekonstruktion – werden entworfen, um jeweils die einzelnen Komponenten zu trainieren. Zudem werden zwei Vortrainierungsstrategien entwickelt: StagedP (stufenweises Vortraining) und EnhancedV (verbesserte Video-Repräsentation), um den Trainingsprozess von UniVL effektiver zu gestalten. Die Vortrainierung erfolgt auf einer großen Datensammlung an Anleitungsvideos, HowTo100M. Experimentelle Ergebnisse zeigen, dass UniVL starke Video-Text-Repräsentationen lernen kann und state-of-the-art-Ergebnisse auf fünf nachgeschalteten Aufgaben erzielt.