UNIMO: Ein Schritt hin zu einer einheitlichen multimodalen Wahrnehmung und Generierung durch cross-modale kontrastive Lernverfahren

Bisherige Vortrainingsmethoden konzentrieren sich entweder auf einmodale Aufgaben oder auf multimodale Aufgaben und können sich nicht effektiv gegenseitig anpassen. Sie können lediglich einmodale Daten (z. B. Text oder Bilder) oder begrenzte multimodale Daten (z. B. Bild-Text-Paare) nutzen. In dieser Arbeit stellen wir eine einheitliche Vortrainingsarchitektur namens UNIMO vor, die effektiv sowohl für einmodale als auch für multimodale Verstehens- und Generierungsaufgaben geeignet ist. Durch die Nutzung großer, frei verfügbaren Textkorpora und Bildsammlungen kann die Fähigkeit des Modells zur visuellen und textuellen Verarbeitung erheblich verbessert werden. Zudem wird über einen Korpus aus Bild-Text-Paaren ein cross-modaler kontrastiver Lernansatz (CMCL) eingesetzt, um Text- und Bildinformationen in einen einheitlichen semantischen Raum zu transformieren. Da einmodale Daten ohne Paarung äußerst reichhaltig sind, kann unser Modell eine viel größere Datenmenge nutzen, um allgemeinere und robusterere Darstellungen zu lernen. Darüber hinaus können textuelle und visuelle Wissensinhalte sich im einheitlichen semantischen Raum gegenseitig ergänzen und stärken. Experimentelle Ergebnisse zeigen, dass UNIMO die Leistung mehrerer ein- und multimodaler Nachfolgeaufgaben signifikant verbessert. Der Quellcode und die vortrainierten Modelle sind öffentlich auf der Projektseite von UNIMO unter https://unimo-ptm.github.io/ verfügbar.