HyperAIHyperAI
vor 2 Monaten

Vision-Sprache-Vortraining mit dreifachem kontrastiven Lernen

Jinyu Yang; Jiali Duan; Son Tran; Yi Xu; Sampath Chanda; Liqun Chen; Belinda Zeng; Trishul Chilimbi; Junzhou Huang
Vision-Sprache-Vortraining mit dreifachem kontrastiven Lernen
Abstract

Das Lernen von Vision-Sprach-Darstellungen profitiert stark von der Bild-Text-Ausrichtung durch kontrastive Verlustfunktionen (z.B. InfoNCE-Verlust). Der Erfolg dieser Ausrichtungsstrategie wird darauf zurückgeführt, dass sie die gegenseitige Information (MI) zwischen einem Bild und dessen zugehörigem Text maximieren kann. Allerdings ignoriert das einfache Durchführen einer modalitätsübergreifenden Ausrichtung (CMA) das Datenpotenzial innerhalb jeder Modalität, was zu verschlechterten Darstellungen führen kann. Zum Beispiel sind CMA-basierte Modelle zwar in der Lage, Bild-Text-Paare im Einbettungsraum nahe beieinander abzubilden, aber sie gewährleisten nicht, dass ähnliche Eingaben derselben Modalität nah beieinander bleiben. Dieses Problem kann sich noch verschlimmern, wenn die Vortrainingsdaten rauschig sind. In diesem Artikel schlagen wir ein dreifaches kontrastives Lernen (TCL) für das Vision-Sprach-Vortraining vor, indem wir sowohl modalitätsübergreifende als auch innermodale Selbstüberwachung nutzen. Neben CMA führt TCL ein innermodales kontrastives Ziel ein, um zusätzliche Vorteile beim Lernen von Darstellungen zu bieten. Um lokalisierte und strukturelle Informationen aus Bild- und Texteingaben zu nutzen, maximiert TCL ferner den durchschnittlichen MI zwischen lokalen Bereichen von Bildern/Texten und deren globaler Zusammenfassung. Nach bestem Wissen ist dies die erste Arbeit, die lokale Strukturinformationen für das Lernen von multimodalen Darstellungen berücksichtigt. Experimentelle Bewertungen zeigen, dass unser Ansatz wettbewerbsfähig ist und den neuen Stand der Technik bei verschiedenen gängigen nachgeschalteten Vision-Sprach-Aufgaben wie Bild-Text-Retrieval und visuelle Fragebeantwortung erreicht.