HyperAIHyperAI

Command Palette

Search for a command to run...

COTS: Zusammenarbeitssystem mit zwei Strömen für vorab trainierte visuell-sprachliche Modelle zur multimodalen Suche

Haoyu Lu Nanyi Fei Yuqi Huo Yizhao Gao Zhiwu Lu Ji-Rong Wen

Zusammenfassung

Großskalige Einzelstrahl-Vorstudien haben eine dramatische Leistungsfähigkeit bei der Bild-Text-Recherche gezeigt. Bedauerlicherweise leiden sie aufgrund ihrer schweren Aufmerksamkeits-Schichten unter geringer Inferenz-Effizienz. Kürzlich haben zweistrahlige Ansätze wie CLIP und ALIGN mit hoher Inferenz-Effizienz ebenfalls vielversprechende Ergebnisse erzielt; sie berücksichtigen jedoch lediglich die Instanz-Level-Alignment zwischen den beiden Strömen (was noch Verbesserungspotenzial bietet). Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges COllaborative Two-Stream-Modell für vision-sprachliche Vorstudien, COTS, vor, das die Kreuzmodale Interaktion verbessert, um die Bild-Text-Recherche zu optimieren. Neben der Instanz-Level-Alignment mittels Momentum-Contrastiver Lernmethode integrieren wir in COTS zwei zusätzliche Ebenen der Kreuzmodalen Interaktion: (1) Token-Level-Interaktion – Es wird ein maskiertes Vision-Sprache-Modellierungs-(MVLM)-Lernziel vorgeschlagen, ohne dass ein Kreuzstrahl-Netzwerkmodul eingesetzt wird; hierbei wird ein variationaler Autoencoder auf den visuellen Encoder angewendet, um visuelle Tokens für jedes Bild zu generieren. (2) Task-Level-Interaktion – Ein KL-Alignment-Lernziel wird zwischen den Aufgaben Text-zu-Bild und Bild-zu-Text-Recherche definiert, wobei die Wahrscheinlichkeitsverteilung pro Aufgabe mittels negativer Warteschlangen in der Momentum-Contrastiven Lernmethode berechnet wird. Unter einer fairen Vergleichsbedingung erreicht unser COTS die höchste Leistung unter allen zweistrahligen Ansätzen und zeigt vergleichbare Ergebnisse (jedoch mit einer 10.800-fach höheren Inferenzgeschwindigkeit) gegenüber den neuesten Einzelstrahl-Methoden. Wichtig ist, dass unser COTS auch auf die Text-zu-Video-Recherche anwendbar ist und damit einen neuen State-of-the-Art auf dem weit verbreiteten MSR-VTT-Datensatz erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
COTS: Zusammenarbeitssystem mit zwei Strömen für vorab trainierte visuell-sprachliche Modelle zur multimodalen Suche | Paper | HyperAI