HyperAIHyperAI

Command Palette

Search for a command to run...

Prismer: Ein Vision-Sprache-Modell mit Multi-Task-Experten

Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar

Zusammenfassung

Kürzlich entwickelte visuell-sprachliche Modelle haben beeindruckende multimodale Generierungsfähigkeiten gezeigt. Allerdings erfordern sie typischerweise die Schulung großer Modelle auf riesigen Datensätzen. Als skalierbarere Alternative stellen wir Prismer vor, ein daten- und parameter-effizientes visuell-sprachliches Modell, das einen Ensemble aus auf spezifische Aufgaben zugeschnittenen Experten nutzt. Prismer erfordert lediglich die Schulung einer geringen Anzahl von Komponenten, wobei der Großteil der Netzwerkgewichte aus mehreren leicht verfügbaren, vortrainierten Experten entnommen und während des Trainings fixiert bleibt. Durch die Nutzung von Experte aus einer Vielzahl von Domänen zeigen wir, dass Prismer diese Expertenwissen effizient sammeln und an verschiedene visuell-sprachliche Schlussfolgerungsaufgaben anpassen kann. In unseren Experimenten demonstrieren wir, dass Prismer eine Leistung im Fine-Tuning und Few-Shot Learning erreicht, die mit aktuellen State-of-the-Art-Modellen konkurrieren kann, während dabei bis zu zwei Größenordnungen weniger Trainingsdaten benötigt werden. Der Quellcode ist unter https://github.com/NVlabs/prismer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp