HyperAIHyperAI

Command Palette

Search for a command to run...

COOT: Kooperativer hierarchischer Transformer für die Video-Text-Repräsentationslernen

Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox

Zusammenfassung

Viele realweltrelevante Aufgaben im Bereich Video-Text beinhalten unterschiedliche Granularitätsstufen, wie beispielsweise Bilder und Wörter, Clips und Sätze oder Videos und Absätze, jeweils mit unterschiedlichen Semantiken. In diesem Paper stellen wir einen kooperativen hierarchischen Transformer (COOT) vor, der diese Hierarchieinformation nutzt und die Wechselwirkungen zwischen verschiedenen Granularitätsstufen sowie zwischen verschiedenen Modalitäten modelliert. Die Methode besteht aus drei Hauptkomponenten: einer auf Aufmerksamkeit basierenden Merkmalsaggregationsschicht, die den lokalen zeitlichen Kontext (intra-level, z. B. innerhalb eines Clips) nutzt, einem kontextuellen Transformer zur Erfassung der Wechselwirkungen zwischen niedrigen und hohen semantischen Ebenen (inter-level, z. B. Clip-Video, Satz-Absatz) sowie einer cross-modalen zyklischen Konsistenzverlustfunktion zur Verbindung von Video und Text. Das resultierende Verfahren erzielt gegenüber dem Stand der Technik auf mehreren Benchmarks vergleichbare oder bessere Ergebnisse, während es nur wenige Parameter benötigt. Der gesamte Code ist unter https://github.com/gingsi/coot-videotext als Open-Source verfügbare.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp