mPLUG-2: Ein modularisierter multimodaler Grundmodell über Text, Bild und Video

In den letzten Jahren hat sich eine erhebliche Konvergenz zwischen Sprache, Vision und multimodaler Vortrainierung vollzogen. In dieser Arbeit präsentieren wir mPLUG-2, ein neuartiges, einheitliches Paradigma mit modularer Architektur für multimodale Vortrainierung, das sowohl von einer Zusammenarbeit verschiedener Modalitäten profitieren kann als auch das Problem der Modalitätsverflechtung adressiert. Im Gegensatz zu vorherrschenden Ansätzen, die ausschließlich auf sequenz-zu-Sequenz-Generierung oder encoderbasierte Instanzdiskriminierung setzen, führt mPLUG-2 ein Netzwerk aus mehreren Modulen ein, bei dem gemeinsame universelle Module zur Förderung der Modalitätszusammenarbeit genutzt werden, während unterschiedliche Modulkomponenten für die Entflechtung verschiedener Modalitäten spezifisch disjunkt gestaltet sind. Die Architektur ermöglicht eine flexible Auswahl unterschiedlicher Module für verschiedene Aufgaben im Bereich der Verständnis- und Generierungsaufgaben über alle Modalitäten – Text, Bild und Video – hinweg. Empirische Studien zeigen, dass mPLUG-2 state-of-the-art oder wettbewerbsfähige Ergebnisse auf einer breiten Palette von über 30 nachgeschalteten Aufgaben erzielt, die sowohl multimodale Aufgaben im Bereich der Bild-Text- und Video-Text-Verarbeitung (Verständnis und Generierung) als auch unimodale Aufgaben (Text allein, Bild allein, Video allein) abdecken. Insbesondere erzielt mPLUG-2 neue state-of-the-art-Werte von 48,0 % Top-1-Accuracy und 80,3 CIDEr auf den anspruchsvollen MSRVTT-Video-Frage-Antwort- und Video-Kommentaraufgaben, wobei ein deutlich kleineres Modellvolumen und geringere Datenskalen verwendet werden. Zudem zeigt mPLUG-2 eine starke Transferfähigkeit im zero-shot-Szenario für Aufgaben im Bereich der Bild-Sprache- und Video-Sprache-Interaktion. Der Quellcode und die Modelle werden unter https://github.com/alibaba/AliceMind veröffentlicht.