HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG: Effektives und effizientes visuell-sprachliches Lernen durch cross-modal Skip-Connections

Zusammenfassung

Großskalige vortrainierte Grundmodelle sind zu einem aufkommenden Paradigma für die Entwicklung künstlicher Intelligenz (KI)-Systeme geworden, die sich schnell auf eine Vielzahl von nachgeschalteten Aufgaben anpassen lassen. In diesem Artikel stellen wir mPLUG vor, ein neues vision-sprachliches Grundmodell für sowohl die intermodale Verständnis- als auch die Generierungsaufgabe. Die meisten bestehenden vortrainierten Modelle leiden unter Problemen der geringen rechnerischen Effizienz und der Informationsasymmetrie, die durch die lange visuelle Sequenz im Prozess der intermodalen Ausrichtung verursacht werden. Um diese Herausforderungen zu bewältigen, führt mPLUG eine effektive und effiziente vision-sprachliche Architektur mit neuartigen intermodalen Sprungverbindungen ein, die zwischenlagige Kurzschlüsse schaffen, wodurch eine bestimmte Anzahl von Schichten für die zeitaufwändige vollständige Selbst-Attention auf der visuellen Seite übersprungen wird. mPLUG wird end-to-end auf großen Datensätzen aus Bild-Text-Paaren mit sowohl diskriminativen als auch generativen Zielfunktionen vortrainiert. Es erreicht state-of-the-art-Ergebnisse auf einer breiten Palette von vision-sprachlichen nachgeschalteten Aufgaben, wie z. B. Bildbeschreibung, Bild-Text-Recherche, visuelle Grundlage und visuelle Fragenbeantwortung. Zudem zeigt mPLUG eine starke Transferfähigkeit im Zero-Shot-Szenario, wenn es direkt auf mehrere Video-Sprache-Aufgaben übertragen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp