HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Sprache-Vortraining mit dreifachem kontrastiven Lernen

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

Zusammenfassung

Das Lernen von Vision-Sprach-Darstellungen profitiert stark von der Bild-Text-Ausrichtung durch kontrastive Verlustfunktionen (z.B. InfoNCE-Verlust). Der Erfolg dieser Ausrichtungsstrategie wird darauf zurückgeführt, dass sie die gegenseitige Information (MI) zwischen einem Bild und dessen zugehörigem Text maximieren kann. Allerdings ignoriert das einfache Durchführen einer modalitätsübergreifenden Ausrichtung (CMA) das Datenpotenzial innerhalb jeder Modalität, was zu verschlechterten Darstellungen führen kann. Zum Beispiel sind CMA-basierte Modelle zwar in der Lage, Bild-Text-Paare im Einbettungsraum nahe beieinander abzubilden, aber sie gewährleisten nicht, dass ähnliche Eingaben derselben Modalität nah beieinander bleiben. Dieses Problem kann sich noch verschlimmern, wenn die Vortrainingsdaten rauschig sind. In diesem Artikel schlagen wir ein dreifaches kontrastives Lernen (TCL) für das Vision-Sprach-Vortraining vor, indem wir sowohl modalitätsübergreifende als auch innermodale Selbstüberwachung nutzen. Neben CMA führt TCL ein innermodales kontrastives Ziel ein, um zusätzliche Vorteile beim Lernen von Darstellungen zu bieten. Um lokalisierte und strukturelle Informationen aus Bild- und Texteingaben zu nutzen, maximiert TCL ferner den durchschnittlichen MI zwischen lokalen Bereichen von Bildern/Texten und deren globaler Zusammenfassung. Nach bestem Wissen ist dies die erste Arbeit, die lokale Strukturinformationen für das Lernen von multimodalen Darstellungen berücksichtigt. Experimentelle Bewertungen zeigen, dass unser Ansatz wettbewerbsfähig ist und den neuen Stand der Technik bei verschiedenen gängigen nachgeschalteten Vision-Sprach-Aufgaben wie Bild-Text-Retrieval und visuelle Fragebeantwortung erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision-Sprache-Vortraining mit dreifachem kontrastiven Lernen | Paper | HyperAI