HyperAIHyperAI
vor 17 Tagen

Retrieval-Augmented Multimodal Language Modeling

Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
Retrieval-Augmented Multimodal Language Modeling
Abstract

Neuere multimodale Modelle wie DALL-E und CM3 haben beachtliche Fortschritte bei der Text-zu-Bild- und Bild-zu-Text-Generierung erzielt. Allerdings speichern diese Modelle sämtliches erlerntes Wissen (z. B. das Aussehen des Eiffelturms) in den Modellparametern, was immer größere Modelle und Trainingsdaten erfordert, um weiteres Wissen zu erfassen. Um Wissen auf eine skalierbarere und modularere Weise zu integrieren, schlagen wir ein retrieval-ergänztes multimodales Modell vor, das einem Basis-multimodalen Modell (Generator) ermöglicht, auf relevante Texte und Bilder zuzugreifen, die von einem Retriever aus einer externen Speicherquelle (z. B. Webdokumente) abgerufen werden. Konkret verwenden wir für den Retriever ein vortrainiertes CLIP-Modell und trainieren für den Generator einen CM3-Transformer auf dem LAION-Datensatz. Das resultierende Modell, benannt als Retrieval-Augmented CM3 (RA-CM3), ist das erste multimodale Modell, das sowohl Texte als auch Bilder abrufen und generieren kann. Wir zeigen, dass RA-CM3 sowohl bei Bild- als auch bei Caption-Generierungsaufgaben signifikant die Leistung von Baseline-Modellen wie DALL-E und CM3 übertrifft (12 FID- und 17 CIDEr-Verbesserungen auf MS-COCO), während dabei deutlich weniger Rechenleistung für das Training erforderlich ist (unter 30 % von DALL-E). Darüber hinaus demonstrieren wir, dass RA-CM3 neue Fähigkeiten aufweist, wie z. B. treue Bildgenerierung und multimodale In-Context-Learning (z. B. Bildgenerierung anhand von Demonstrationen).