vor 17 Tagen

Skalierung autoregressiver multimodaler Modelle: Pretraining und Instruction Tuning

Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan

Details der Forschungsarbeit anzeigen

Skalierung autoregressiver multimodaler Modelle: Pretraining und Instruction Tuning

Abstract

Wir präsentieren CM3Leon (ausgesprochen „Chameleon“), ein abfrageverstärktes, tokenbasiertes, decoder-only-Modell für mehrere Modi, das sowohl Text als auch Bilder generieren und ergänzen kann. CM3Leon basiert auf der CM3-Architektur für mehrere Modi, zeigt jedoch zusätzlich die außergewöhnlichen Vorteile einer Skalierung und Feinabstimmung an einer vielfältigeren Datenquelle im Anweisungsstil. Es ist das erste mehrmodale Modell, das mit einem Rezept trainiert wurde, das aus reine-Text-Sprachmodellen abgeleitet ist und eine großskalige, abfrageverstärkte Vortraining-Phase sowie eine zweite mehraufgabenbasierte, überwachte Feinabstimmungsphase (SFT) umfasst. Zudem handelt es sich um ein allgemein einsetzbares Modell, das sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierung ermöglicht, wodurch wir selbstständige, kontrastive Decodiermethoden einführen können, die hochwertige Ausgaben erzeugen. Umfangreiche Experimente zeigen, dass dieses Rezept für mehrmodale Modelle äußerst wirksam ist. CM3Leon erreicht bei der Text-zu-Bild-Generierung einen Stand der Technik, wobei nur ein Fünftel der Trainingsrechenleistung im Vergleich zu vergleichbaren Methoden benötigt wird (zero-shot MS-COCO FID von 4,88). Nach der SFT demonstriert CM3Leon zudem bisher ungekannte Kontrollierbarkeit bei Aufgaben, die von sprachgesteuertem Bildbearbeitung über bildgesteuerte Generierung bis hin zur Segmentierung reichen.