HyperAIHyperAI

Command Palette

Search for a command to run...

Video-Text als Spielende: Hierarchische Banzhaf-Interaktion für die cross-modale Repräsentationslernung

Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang Liu Xiangyang Ji Li Yuan Jie Chen

Zusammenfassung

Ansätze zur video-sprachlichen Repräsentationslernung auf Basis von Contrastive Learning, wie beispielsweise CLIP, haben herausragende Leistungen erzielt, indem sie semantische Interaktionen zwischen vordefinierten Video-Text-Paaren anstreben. Um diese grobgranuläre globale Interaktion zu klären und einen weiteren Schritt voranzuschreiten, müssen wir herausfordernde, fein granulare Kreuzmodale Interaktionen bewältigen. In diesem Artikel modellieren wir Video-Text kreativ als Spieler in einem mehrdimensionalen kooperativen Spiel nach der Spieltheorie, um die Unsicherheit bei fein granulären semantischen Interaktionen geschickt zu handhaben – mit unterschiedlicher Granularität, flexibler Kombination und unscharfer Intensität. Konkret schlagen wir Hierarchische Banzhaf-Interaktion (HBI) vor, um mögliche Korrespondenzen zwischen Videobildern und Textwörtern zu bewerten, um eine empfindliche und erklärbare Kreuzmodale Kontrastierung zu ermöglichen. Um die kooperative Interaktion mehrerer Videobilder und mehrerer Textwörter effizient zu realisieren, gruppiert die vorgeschlagene Methode die ursprünglichen Videobilder (bzw. Textwörter) und berechnet die Banzhaf-Interaktion zwischen den zusammengefassten Tokens. Durch Stapeln von Token-Zusammenführungsmodulen erreichen wir kooperative Spiele auf unterschiedlichen semantischen Ebenen. Umfangreiche Experimente auf gängigen Benchmarks für Text-Video-Abfrage und Video-Frage-Antwort mit überlegener Leistung belegen die Wirksamkeit unseres HBI. Noch vielversprechender ist, dass das Verfahren auch als Visualisierungswerkzeug dienen kann, um das Verständnis der Kreuzmodalen Interaktion zu fördern, was tiefgreifende Auswirkungen auf die Forschungsgemeinschaft haben könnte. Die Projektseite ist unter https://jpthu17.github.io/HBI/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp