mPLUG: Effektives und effizientes visuell-sprachliches Lernen durch cross-modal Skip-Connections

Großskalige vortrainierte Grundmodelle sind zu einem aufkommenden Paradigma für die Entwicklung künstlicher Intelligenz (KI)-Systeme geworden, die sich schnell auf eine Vielzahl von nachgeschalteten Aufgaben anpassen lassen. In diesem Artikel stellen wir mPLUG vor, ein neues vision-sprachliches Grundmodell für sowohl die intermodale Verständnis- als auch die Generierungsaufgabe. Die meisten bestehenden vortrainierten Modelle leiden unter Problemen der geringen rechnerischen Effizienz und der Informationsasymmetrie, die durch die lange visuelle Sequenz im Prozess der intermodalen Ausrichtung verursacht werden. Um diese Herausforderungen zu bewältigen, führt mPLUG eine effektive und effiziente vision-sprachliche Architektur mit neuartigen intermodalen Sprungverbindungen ein, die zwischenlagige Kurzschlüsse schaffen, wodurch eine bestimmte Anzahl von Schichten für die zeitaufwändige vollständige Selbst-Attention auf der visuellen Seite übersprungen wird. mPLUG wird end-to-end auf großen Datensätzen aus Bild-Text-Paaren mit sowohl diskriminativen als auch generativen Zielfunktionen vortrainiert. Es erreicht state-of-the-art-Ergebnisse auf einer breiten Palette von vision-sprachlichen nachgeschalteten Aufgaben, wie z. B. Bildbeschreibung, Bild-Text-Recherche, visuelle Grundlage und visuelle Fragenbeantwortung. Zudem zeigt mPLUG eine starke Transferfähigkeit im Zero-Shot-Szenario, wenn es direkt auf mehrere Video-Sprache-Aufgaben übertragen wird.