vor 16 Tagen

Vektorquantisierte Bildmodellierung mit verbessertem VQGAN

Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, Yonghui Wu

Details der Forschungsarbeit anzeigen

Vektorquantisierte Bildmodellierung mit verbessertem VQGAN

Abstract

Die Vortrainierung von Sprachmodellen mittels Next-Token-Prediction auf riesigen Textkorpora hat bemerkenswerte Fähigkeiten im Bereich Zero-Shot-, Few-Shot-, Transfer-Learning und Multi-Tasking sowohl für generative als auch für diskriminative Sprachaufgaben erbracht. Ausgehend von diesem Erfolg erforschen wir einen Ansatz zur Vektorquantisierten Bildmodellierung (Vector-quantized Image Modeling, VIM), bei dem ein Transformer vortrainiert wird, um rasterte Bildtoken autoregressiv vorherzusagen. Die diskreten Bildtoken werden aus einem gelernten Vision-Transformer-basierten VQGAN (ViT-VQGAN) abgeleitet. Wir stellen zunächst mehrere Verbesserungen gegenüber dem ursprünglichen VQGAN vor – von der Architektur bis zur Codebook-Lernung –, die eine höhere Effizienz und bessere Rekonstruktionsgenauigkeit ermöglichen. Der verbesserte ViT-VQGAN steigert zudem die Leistung bei vektorquantisierten Bildmodellierungsaufgaben, einschließlich unbedingter und klassenbedingter Bildgenerierung sowie unsupervisionierter Repräsentationslernung. Bei der Vortrainierung auf ImageNet in einer Auflösung von (256\times256) erreichen wir einen Inception-Score (IS) von 175,1 und eine Fréchet-Inception-Distanz (FID) von 4,17 – eine deutliche Verbesserung gegenüber dem ursprünglichen VQGAN, das Werte von 70,6 (IS) und 17,04 (FID) erzielt. Basierend auf dem ViT-VQGAN und unsupervisioniertem Vortrainieren evaluieren wir den vortrainierten Transformer durch Mittelung von Zwischenmerkmalen, ähnlich wie bei Image GPT (iGPT). Der auf ImageNet vortrainierte VIM-L erreicht eine lineare Probing-Accuracy von 73,2 %, gegenüber 60,3 % beim iGPT-L bei vergleichbarer Modellgröße – ein signifikanter Fortschritt. Zudem übertrifft VIM-L auch iGPT-XL, das mit zusätzlichen Web-Bild-Daten und einem größeren Modelltrainingsaufwand vortrainiert wurde.