HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-2: Ein modularisierter multimodaler Grundmodell über Text, Bild und Video

Zusammenfassung

In den letzten Jahren hat sich eine erhebliche Konvergenz zwischen Sprache, Vision und multimodaler Vortrainierung vollzogen. In dieser Arbeit präsentieren wir mPLUG-2, ein neuartiges, einheitliches Paradigma mit modularer Architektur für multimodale Vortrainierung, das sowohl von einer Zusammenarbeit verschiedener Modalitäten profitieren kann als auch das Problem der Modalitätsverflechtung adressiert. Im Gegensatz zu vorherrschenden Ansätzen, die ausschließlich auf sequenz-zu-Sequenz-Generierung oder encoderbasierte Instanzdiskriminierung setzen, führt mPLUG-2 ein Netzwerk aus mehreren Modulen ein, bei dem gemeinsame universelle Module zur Förderung der Modalitätszusammenarbeit genutzt werden, während unterschiedliche Modulkomponenten für die Entflechtung verschiedener Modalitäten spezifisch disjunkt gestaltet sind. Die Architektur ermöglicht eine flexible Auswahl unterschiedlicher Module für verschiedene Aufgaben im Bereich der Verständnis- und Generierungsaufgaben über alle Modalitäten – Text, Bild und Video – hinweg. Empirische Studien zeigen, dass mPLUG-2 state-of-the-art oder wettbewerbsfähige Ergebnisse auf einer breiten Palette von über 30 nachgeschalteten Aufgaben erzielt, die sowohl multimodale Aufgaben im Bereich der Bild-Text- und Video-Text-Verarbeitung (Verständnis und Generierung) als auch unimodale Aufgaben (Text allein, Bild allein, Video allein) abdecken. Insbesondere erzielt mPLUG-2 neue state-of-the-art-Werte von 48,0 % Top-1-Accuracy und 80,3 CIDEr auf den anspruchsvollen MSRVTT-Video-Frage-Antwort- und Video-Kommentaraufgaben, wobei ein deutlich kleineres Modellvolumen und geringere Datenskalen verwendet werden. Zudem zeigt mPLUG-2 eine starke Transferfähigkeit im zero-shot-Szenario für Aufgaben im Bereich der Bild-Sprache- und Video-Sprache-Interaktion. Der Quellcode und die Modelle werden unter https://github.com/alibaba/AliceMind veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
mPLUG-2: Ein modularisierter multimodaler Grundmodell über Text, Bild und Video | Paper | HyperAI