COTS: Zusammenarbeitssystem mit zwei Strömen für vorab trainierte visuell-sprachliche Modelle zur multimodalen Suche

Großskalige Einzelstrahl-Vorstudien haben eine dramatische Leistungsfähigkeit bei der Bild-Text-Recherche gezeigt. Bedauerlicherweise leiden sie aufgrund ihrer schweren Aufmerksamkeits-Schichten unter geringer Inferenz-Effizienz. Kürzlich haben zweistrahlige Ansätze wie CLIP und ALIGN mit hoher Inferenz-Effizienz ebenfalls vielversprechende Ergebnisse erzielt; sie berücksichtigen jedoch lediglich die Instanz-Level-Alignment zwischen den beiden Strömen (was noch Verbesserungspotenzial bietet). Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges COllaborative Two-Stream-Modell für vision-sprachliche Vorstudien, COTS, vor, das die Kreuzmodale Interaktion verbessert, um die Bild-Text-Recherche zu optimieren. Neben der Instanz-Level-Alignment mittels Momentum-Contrastiver Lernmethode integrieren wir in COTS zwei zusätzliche Ebenen der Kreuzmodalen Interaktion: (1) Token-Level-Interaktion – Es wird ein maskiertes Vision-Sprache-Modellierungs-(MVLM)-Lernziel vorgeschlagen, ohne dass ein Kreuzstrahl-Netzwerkmodul eingesetzt wird; hierbei wird ein variationaler Autoencoder auf den visuellen Encoder angewendet, um visuelle Tokens für jedes Bild zu generieren. (2) Task-Level-Interaktion – Ein KL-Alignment-Lernziel wird zwischen den Aufgaben Text-zu-Bild und Bild-zu-Text-Recherche definiert, wobei die Wahrscheinlichkeitsverteilung pro Aufgabe mittels negativer Warteschlangen in der Momentum-Contrastiven Lernmethode berechnet wird. Unter einer fairen Vergleichsbedingung erreicht unser COTS die höchste Leistung unter allen zweistrahligen Ansätzen und zeigt vergleichbare Ergebnisse (jedoch mit einer 10.800-fach höheren Inferenzgeschwindigkeit) gegenüber den neuesten Einzelstrahl-Methoden. Wichtig ist, dass unser COTS auch auf die Text-zu-Video-Recherche anwendbar ist und damit einen neuen State-of-the-Art auf dem weit verbreiteten MSR-VTT-Datensatz erzielt.