vor 2 Monaten

Generative Multimodale Modelle sind Kontextlernenmodelle

Quan Sun; Yufeng Cui; Xiaosong Zhang; Fan Zhang; Qiying Yu; Zhengxiong Luo; Yueze Wang; Yongming Rao; Jingjing Liu; Tiejun Huang; Xinlong Wang

Details der Forschungsarbeit anzeigen

Generative Multimodale Modelle sind Kontextlernenmodelle

Abstract

Die menschliche Fähigkeit, multimodale Aufgaben im Kontext leicht zu lösen (d.h., mit nur wenigen Demonstrationen oder einfachen Anweisungen), ist es, vor der aktuelle multimodale Systeme größtenteils gescheitert sind. In dieser Arbeit zeigen wir, dass die aufgabenunabhängigen Lernfähigkeiten großer multimodaler Modelle im Kontext durch effektives Skalieren erheblich verbessert werden können. Wir stellen Emu2 vor, ein generatives multimodales Modell mit 37 Milliarden Parametern, das anhand umfangreicher multimodaler Sequenzen mit einem vereinheitlichten autoregressiven Ziel trainiert wurde. Emu2 zeigt starke multimodale Lernfähigkeiten im Kontext und ist sogar in der Lage, Aufgaben zu lösen, die spontanes Denken erfordern, wie visuelles Prompting und objektabgestützte Generierung. Das Modell stellt in mehreren multimodalen Verständnisaufgaben bei wenigen Schuss-Einstellungen einen neuen Rekord auf. Wenn Emu2 auf spezifische Anweisungen abgestimmt wird, erreicht es neue Standarts auf anspruchsvollen Aufgaben wie Benchmarks für Fragebeantwortung von großen multimodalen Modellen und offene themengeleitete Generierung. Diese Leistungen zeigen, dass Emu2 als Basismodell und allgemeines Interface für eine Vielzahl von multimodalen Aufgaben dienen kann. Der Quellcode und die Modelle sind öffentlich verfügbar, um zukünftige Forschungen zu erleichtern.