vor 17 Tagen

Align and Prompt: Video-and-Language Pre-training mit Entity-Prompts

Dongxu Li, Junnan Li, Hongdong Li, Juan Carlos Niebles, Steven C.H. Hoi

Abstract

Die Vortrainierung von Video- und Sprachdaten hat vielversprechende Fortschritte bei verschiedenen nachgeschalteten Aufgaben gezeigt. Die meisten bisherigen Ansätze erfassen die multimodalen Interaktionen mittels eines Transformer-basierten Multimodal-Encoders, wobei die Missalignment zwischen unimodalen Video- und Textmerkmalen nicht vollständig adressiert wird. Zudem erfordert die Lernung feinabgestimmter visuell-sprachlicher Alignment typischerweise externe Objektdetektoren, um Objektinformationen bereitzustellen, was durch die begrenzte Vokabellänge der Detektoren und die hohen Rechenkosten eingeschränkt ist.Wir stellen Align and Prompt vor – einen effizienten und leistungsfähigen Rahmen für die Vortrainierung von Video- und Sprachdaten mit einer verbesserten multimodalen Ausrichtung. Zunächst führen wir eine video-textuelle kontrastive (VTC) Verlustfunktion ein, um unimodale Video-Text-Merkmale auf Instanzebene auszurichten, was die Modellierung multimodaler Interaktionen erleichtert. Anschließend schlagen wir eine neue, visuell fundierte Vortrainierungsaufgabe vor: das Prompting-Modell für Entitäten (PEM), die darauf abzielt, eine feinabgestimmte Region-Entität-Ausrichtung zu lernen. Dazu führen wir zunächst ein Entitäten-Prompter-Modul ein, das gemeinsam mit der VTC-Verlustfunktion trainiert wird, um die Ähnlichkeit zwischen einem Videoausschnitt und Text-Prompten, die mit Entitätsnamen instanziiert sind, zu generieren. Die PEM-Aufgabe verlangt dann von dem Modell, die pseudo-Label der Entitäten (d. h. normalisierte Ähnlichkeitsscores) für zufällig ausgewählte Videoausschnitte vorherzusagen. Das resultierende vortrainierte Modell erreicht eine state-of-the-art-Leistung sowohl bei der Text-Video-Recherche als auch bei der Video-Fragebeantwortung und übertrifft die vorherigen Ansätze erheblich. Unsere Code-Implementierung und die vortrainierten Modelle sind unter https://github.com/salesforce/ALPRO verfügbar.