HyperAIHyperAI

Command Palette

Search for a command to run...

Align and Prompt: Video-and-Language Pre-training mit Entity-Prompts

Dongxu Li Junnan Li Hongdong Li Juan Carlos Niebles Steven C.H. Hoi

Zusammenfassung

Die Vortrainierung von Video- und Sprachdaten hat vielversprechende Fortschritte bei verschiedenen nachgeschalteten Aufgaben gezeigt. Die meisten bisherigen Ansätze erfassen die multimodalen Interaktionen mittels eines Transformer-basierten Multimodal-Encoders, wobei die Missalignment zwischen unimodalen Video- und Textmerkmalen nicht vollständig adressiert wird. Zudem erfordert die Lernung feinabgestimmter visuell-sprachlicher Alignment typischerweise externe Objektdetektoren, um Objektinformationen bereitzustellen, was durch die begrenzte Vokabellänge der Detektoren und die hohen Rechenkosten eingeschränkt ist.Wir stellen Align and Prompt vor – einen effizienten und leistungsfähigen Rahmen für die Vortrainierung von Video- und Sprachdaten mit einer verbesserten multimodalen Ausrichtung. Zunächst führen wir eine video-textuelle kontrastive (VTC) Verlustfunktion ein, um unimodale Video-Text-Merkmale auf Instanzebene auszurichten, was die Modellierung multimodaler Interaktionen erleichtert. Anschließend schlagen wir eine neue, visuell fundierte Vortrainierungsaufgabe vor: das Prompting-Modell für Entitäten (PEM), die darauf abzielt, eine feinabgestimmte Region-Entität-Ausrichtung zu lernen. Dazu führen wir zunächst ein Entitäten-Prompter-Modul ein, das gemeinsam mit der VTC-Verlustfunktion trainiert wird, um die Ähnlichkeit zwischen einem Videoausschnitt und Text-Prompten, die mit Entitätsnamen instanziiert sind, zu generieren. Die PEM-Aufgabe verlangt dann von dem Modell, die pseudo-Label der Entitäten (d. h. normalisierte Ähnlichkeitsscores) für zufällig ausgewählte Videoausschnitte vorherzusagen. Das resultierende vortrainierte Modell erreicht eine state-of-the-art-Leistung sowohl bei der Text-Video-Recherche als auch bei der Video-Fragebeantwortung und übertrifft die vorherigen Ansätze erheblich. Unsere Code-Implementierung und die vortrainierten Modelle sind unter https://github.com/salesforce/ALPRO verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Align and Prompt: Video-and-Language Pre-training mit Entity-Prompts | Paper | HyperAI