Vektorquantisierte Bildmodellierung mit verbessertem VQGAN

Die Vortrainierung von Sprachmodellen mittels Next-Token-Prediction auf riesigen Textkorpora hat bemerkenswerte Fähigkeiten im Bereich Zero-Shot-, Few-Shot-, Transfer-Learning und Multi-Tasking sowohl für generative als auch für diskriminative Sprachaufgaben erbracht. Ausgehend von diesem Erfolg erforschen wir einen Ansatz zur Vektorquantisierten Bildmodellierung (Vector-quantized Image Modeling, VIM), bei dem ein Transformer vortrainiert wird, um rasterte Bildtoken autoregressiv vorherzusagen. Die diskreten Bildtoken werden aus einem gelernten Vision-Transformer-basierten VQGAN (ViT-VQGAN) abgeleitet. Wir stellen zunächst mehrere Verbesserungen gegenüber dem ursprünglichen VQGAN vor – von der Architektur bis zur Codebook-Lernung –, die eine höhere Effizienz und bessere Rekonstruktionsgenauigkeit ermöglichen. Der verbesserte ViT-VQGAN steigert zudem die Leistung bei vektorquantisierten Bildmodellierungsaufgaben, einschließlich unbedingter und klassenbedingter Bildgenerierung sowie unsupervisionierter Repräsentationslernung. Bei der Vortrainierung auf ImageNet in einer Auflösung von (256\times256) erreichen wir einen Inception-Score (IS) von 175,1 und eine Fréchet-Inception-Distanz (FID) von 4,17 – eine deutliche Verbesserung gegenüber dem ursprünglichen VQGAN, das Werte von 70,6 (IS) und 17,04 (FID) erzielt. Basierend auf dem ViT-VQGAN und unsupervisioniertem Vortrainieren evaluieren wir den vortrainierten Transformer durch Mittelung von Zwischenmerkmalen, ähnlich wie bei Image GPT (iGPT). Der auf ImageNet vortrainierte VIM-L erreicht eine lineare Probing-Accuracy von 73,2 %, gegenüber 60,3 % beim iGPT-L bei vergleichbarer Modellgröße – ein signifikanter Fortschritt. Zudem übertrifft VIM-L auch iGPT-XL, das mit zusätzlichen Web-Bild-Daten und einem größeren Modelltrainingsaufwand vortrainiert wurde.