vor 11 Tagen

ActBERT: Lernen von global-lokalen Video-Text-Repräsentationen

Linchao Zhu, Yi Yang

Abstract

In diesem Paper stellen wir ActBERT für das selbstüberwachte Lernen gemeinsamer Videotext-Darstellungen aus ungelabelten Daten vor. Zunächst nutzen wir globale Handlungsinformationen, um die wechselseitige Interaktion zwischen sprachlichen Texten und lokalen regionalen Objekten zu fördern. Dabei werden sowohl globale als auch lokale visuelle Hinweise aus gepaarten Videosequenzen und Textbeschreibungen erschlossen, um eine detaillierte Modellierung der Beziehungen zwischen visuellen und sprachlichen Komponenten zu ermöglichen. Zweitens führen wir einen ENtangled Transformer-Block (ENT) ein, um drei Informationsquellen zu kodieren: globale Handlungen, lokale regionale Objekte und sprachliche Beschreibungen. Globale-lokale Korrespondenzen werden durch gezielte Extraktion von Kontextinformationen identifiziert. Dadurch wird sichergestellt, dass die gemeinsame Videotext-Darstellung sowohl feinabgestimmte Objekte als auch die globale menschliche Absicht berücksichtigt. Wir validieren die Generalisierungsfähigkeit von ActBERT auf verschiedenen nachgeschalteten Aufgaben im Bereich Video- und Sprachverarbeitung, darunter Text-zu-Videoclip-Recherche, Videobeschreibung, Video-Fragenbeantwortung, Aktionssegmentierung und Schrittlokalisierung in Abläufen. ActBERT übertrifft signifikant die bisherigen State-of-the-Art-Methoden und demonstriert somit seine Überlegenheit im Bereich der Videotext-Darstellungslernung.