HyperAIHyperAI

Command Palette

Search for a command to run...

Generative Multimodale Modelle sind Kontextlernenmodelle

Zusammenfassung

Die menschliche Fähigkeit, multimodale Aufgaben im Kontext leicht zu lösen (d.h., mit nur wenigen Demonstrationen oder einfachen Anweisungen), ist es, vor der aktuelle multimodale Systeme größtenteils gescheitert sind. In dieser Arbeit zeigen wir, dass die aufgabenunabhängigen Lernfähigkeiten großer multimodaler Modelle im Kontext durch effektives Skalieren erheblich verbessert werden können. Wir stellen Emu2 vor, ein generatives multimodales Modell mit 37 Milliarden Parametern, das anhand umfangreicher multimodaler Sequenzen mit einem vereinheitlichten autoregressiven Ziel trainiert wurde. Emu2 zeigt starke multimodale Lernfähigkeiten im Kontext und ist sogar in der Lage, Aufgaben zu lösen, die spontanes Denken erfordern, wie visuelles Prompting und objektabgestützte Generierung. Das Modell stellt in mehreren multimodalen Verständnisaufgaben bei wenigen Schuss-Einstellungen einen neuen Rekord auf. Wenn Emu2 auf spezifische Anweisungen abgestimmt wird, erreicht es neue Standarts auf anspruchsvollen Aufgaben wie Benchmarks für Fragebeantwortung von großen multimodalen Modellen und offene themengeleitete Generierung. Diese Leistungen zeigen, dass Emu2 als Basismodell und allgemeines Interface für eine Vielzahl von multimodalen Aufgaben dienen kann. Der Quellcode und die Modelle sind öffentlich verfügbar, um zukünftige Forschungen zu erleichtern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Generative Multimodale Modelle sind Kontextlernenmodelle | Paper | HyperAI