HyperAIHyperAI
vor 9 Tagen

Video-Text als Spielende: Hierarchische Banzhaf-Interaktion für die cross-modale Repräsentationslernung

Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen
Video-Text als Spielende: Hierarchische Banzhaf-Interaktion für die cross-modale Repräsentationslernung
Abstract

Ansätze zur video-sprachlichen Repräsentationslernung auf Basis von Contrastive Learning, wie beispielsweise CLIP, haben herausragende Leistungen erzielt, indem sie semantische Interaktionen zwischen vordefinierten Video-Text-Paaren anstreben. Um diese grobgranuläre globale Interaktion zu klären und einen weiteren Schritt voranzuschreiten, müssen wir herausfordernde, fein granulare Kreuzmodale Interaktionen bewältigen. In diesem Artikel modellieren wir Video-Text kreativ als Spieler in einem mehrdimensionalen kooperativen Spiel nach der Spieltheorie, um die Unsicherheit bei fein granulären semantischen Interaktionen geschickt zu handhaben – mit unterschiedlicher Granularität, flexibler Kombination und unscharfer Intensität. Konkret schlagen wir Hierarchische Banzhaf-Interaktion (HBI) vor, um mögliche Korrespondenzen zwischen Videobildern und Textwörtern zu bewerten, um eine empfindliche und erklärbare Kreuzmodale Kontrastierung zu ermöglichen. Um die kooperative Interaktion mehrerer Videobilder und mehrerer Textwörter effizient zu realisieren, gruppiert die vorgeschlagene Methode die ursprünglichen Videobilder (bzw. Textwörter) und berechnet die Banzhaf-Interaktion zwischen den zusammengefassten Tokens. Durch Stapeln von Token-Zusammenführungsmodulen erreichen wir kooperative Spiele auf unterschiedlichen semantischen Ebenen. Umfangreiche Experimente auf gängigen Benchmarks für Text-Video-Abfrage und Video-Frage-Antwort mit überlegener Leistung belegen die Wirksamkeit unseres HBI. Noch vielversprechender ist, dass das Verfahren auch als Visualisierungswerkzeug dienen kann, um das Verständnis der Kreuzmodalen Interaktion zu fördern, was tiefgreifende Auswirkungen auf die Forschungsgemeinschaft haben könnte. Die Projektseite ist unter https://jpthu17.github.io/HBI/ verfügbar.