COOT: Kooperativer hierarchischer Transformer für die Video-Text-Repräsentationslernen

Viele realweltrelevante Aufgaben im Bereich Video-Text beinhalten unterschiedliche Granularitätsstufen, wie beispielsweise Bilder und Wörter, Clips und Sätze oder Videos und Absätze, jeweils mit unterschiedlichen Semantiken. In diesem Paper stellen wir einen kooperativen hierarchischen Transformer (COOT) vor, der diese Hierarchieinformation nutzt und die Wechselwirkungen zwischen verschiedenen Granularitätsstufen sowie zwischen verschiedenen Modalitäten modelliert. Die Methode besteht aus drei Hauptkomponenten: einer auf Aufmerksamkeit basierenden Merkmalsaggregationsschicht, die den lokalen zeitlichen Kontext (intra-level, z. B. innerhalb eines Clips) nutzt, einem kontextuellen Transformer zur Erfassung der Wechselwirkungen zwischen niedrigen und hohen semantischen Ebenen (inter-level, z. B. Clip-Video, Satz-Absatz) sowie einer cross-modalen zyklischen Konsistenzverlustfunktion zur Verbindung von Video und Text. Das resultierende Verfahren erzielt gegenüber dem Stand der Technik auf mehreren Benchmarks vergleichbare oder bessere Ergebnisse, während es nur wenige Parameter benötigt. Der gesamte Code ist unter https://github.com/gingsi/coot-videotext als Open-Source verfügbare.