HyperAIHyperAI

Command Palette

Search for a command to run...

BLIP-2: Bootstrapping Language-Image Pre-training mit gefrorenen Bildencodern und großen Sprachmodellen

Junnan Li Dongxu Li Silvio Savarese Steven Hoi

Zusammenfassung

Die Kosten für die visuelle und sprachliche Vorabtrainings sind aufgrund des end-to-end Trainings von großen Modellen zunehmend unerschwinglich geworden. In dieser Arbeit wird BLIP-2 vorgeschlagen, eine allgemeine und effiziente Vorabtrainingsstrategie, die das visuelle und sprachliche Vorabtraining durch den Einsatz vorab trainierter, gefrierter Bildencoder und großer, gefrierter Sprachmodelle initiiert. BLIP-2 überbrückt die Modalitätslücke mit einem leichten Querying Transformer, der in zwei Phasen vorab trainiert wird. In der ersten Phase wird das Lernen von visuellen und sprachlichen Repräsentationen durch einen gefrierten Bildencoder initiiert. In der zweiten Phase wird das generative Lernen von Vision zu Sprache durch ein gefriertes Sprachmodell initiiert. Trotz einer deutlich geringeren Anzahl an trainierbaren Parametern erreicht BLIP-2 den Stand der Technik in verschiedenen visuellsprachlichen Aufgaben. Zum Beispiel übertrifft unser Modell Flamingo80B um 8,7 % bei der zero-shot VQAv2-Aufgabe mit 54-mal weniger trainierbaren Parametern. Wir demonstrieren außerdem die neu entstandenen Fähigkeiten des Modells zur zero-shot Bild-zu-Text-Generierung, die natürlichsprachlichen Anweisungen folgen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp