HyperAIHyperAI

Command Palette

Search for a command to run...

ActBERT: Lernen von global-lokalen Video-Text-Repräsentationen

Linchao Zhu Yi Yang

Zusammenfassung

In diesem Paper stellen wir ActBERT für das selbstüberwachte Lernen gemeinsamer Videotext-Darstellungen aus ungelabelten Daten vor. Zunächst nutzen wir globale Handlungsinformationen, um die wechselseitige Interaktion zwischen sprachlichen Texten und lokalen regionalen Objekten zu fördern. Dabei werden sowohl globale als auch lokale visuelle Hinweise aus gepaarten Videosequenzen und Textbeschreibungen erschlossen, um eine detaillierte Modellierung der Beziehungen zwischen visuellen und sprachlichen Komponenten zu ermöglichen. Zweitens führen wir einen ENtangled Transformer-Block (ENT) ein, um drei Informationsquellen zu kodieren: globale Handlungen, lokale regionale Objekte und sprachliche Beschreibungen. Globale-lokale Korrespondenzen werden durch gezielte Extraktion von Kontextinformationen identifiziert. Dadurch wird sichergestellt, dass die gemeinsame Videotext-Darstellung sowohl feinabgestimmte Objekte als auch die globale menschliche Absicht berücksichtigt. Wir validieren die Generalisierungsfähigkeit von ActBERT auf verschiedenen nachgeschalteten Aufgaben im Bereich Video- und Sprachverarbeitung, darunter Text-zu-Videoclip-Recherche, Videobeschreibung, Video-Fragenbeantwortung, Aktionssegmentierung und Schrittlokalisierung in Abläufen. ActBERT übertrifft signifikant die bisherigen State-of-the-Art-Methoden und demonstriert somit seine Überlegenheit im Bereich der Videotext-Darstellungslernung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ActBERT: Lernen von global-lokalen Video-Text-Repräsentationen | Paper | HyperAI