Skalierung autoregressiver multimodaler Modelle: Pretraining und Instruction Tuning

Wir präsentieren CM3Leon (ausgesprochen „Chameleon“), ein abfrageverstärktes, tokenbasiertes, decoder-only-Modell für mehrere Modi, das sowohl Text als auch Bilder generieren und ergänzen kann. CM3Leon basiert auf der CM3-Architektur für mehrere Modi, zeigt jedoch zusätzlich die außergewöhnlichen Vorteile einer Skalierung und Feinabstimmung an einer vielfältigeren Datenquelle im Anweisungsstil. Es ist das erste mehrmodale Modell, das mit einem Rezept trainiert wurde, das aus reine-Text-Sprachmodellen abgeleitet ist und eine großskalige, abfrageverstärkte Vortraining-Phase sowie eine zweite mehraufgabenbasierte, überwachte Feinabstimmungsphase (SFT) umfasst. Zudem handelt es sich um ein allgemein einsetzbares Modell, das sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierung ermöglicht, wodurch wir selbstständige, kontrastive Decodiermethoden einführen können, die hochwertige Ausgaben erzeugen. Umfangreiche Experimente zeigen, dass dieses Rezept für mehrmodale Modelle äußerst wirksam ist. CM3Leon erreicht bei der Text-zu-Bild-Generierung einen Stand der Technik, wobei nur ein Fünftel der Trainingsrechenleistung im Vergleich zu vergleichbaren Methoden benötigt wird (zero-shot MS-COCO FID von 4,88). Nach der SFT demonstriert CM3Leon zudem bisher ungekannte Kontrollierbarkeit bei Aufgaben, die von sprachgesteuertem Bildbearbeitung über bildgesteuerte Generierung bis hin zur Segmentierung reichen.