HyperAIHyperAI

Command Palette

Search for a command to run...

Vektorquantisierte Bildmodellierung mit verbessertem VQGAN

Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu

Zusammenfassung

Die Vortrainierung von Sprachmodellen mittels Next-Token-Prediction auf riesigen Textkorpora hat bemerkenswerte Fähigkeiten im Bereich Zero-Shot-, Few-Shot-, Transfer-Learning und Multi-Tasking sowohl für generative als auch für diskriminative Sprachaufgaben erbracht. Ausgehend von diesem Erfolg erforschen wir einen Ansatz zur Vektorquantisierten Bildmodellierung (Vector-quantized Image Modeling, VIM), bei dem ein Transformer vortrainiert wird, um rasterte Bildtoken autoregressiv vorherzusagen. Die diskreten Bildtoken werden aus einem gelernten Vision-Transformer-basierten VQGAN (ViT-VQGAN) abgeleitet. Wir stellen zunächst mehrere Verbesserungen gegenüber dem ursprünglichen VQGAN vor – von der Architektur bis zur Codebook-Lernung –, die eine höhere Effizienz und bessere Rekonstruktionsgenauigkeit ermöglichen. Der verbesserte ViT-VQGAN steigert zudem die Leistung bei vektorquantisierten Bildmodellierungsaufgaben, einschließlich unbedingter und klassenbedingter Bildgenerierung sowie unsupervisionierter Repräsentationslernung. Bei der Vortrainierung auf ImageNet in einer Auflösung von (256\times256) erreichen wir einen Inception-Score (IS) von 175,1 und eine Fréchet-Inception-Distanz (FID) von 4,17 – eine deutliche Verbesserung gegenüber dem ursprünglichen VQGAN, das Werte von 70,6 (IS) und 17,04 (FID) erzielt. Basierend auf dem ViT-VQGAN und unsupervisioniertem Vortrainieren evaluieren wir den vortrainierten Transformer durch Mittelung von Zwischenmerkmalen, ähnlich wie bei Image GPT (iGPT). Der auf ImageNet vortrainierte VIM-L erreicht eine lineare Probing-Accuracy von 73,2 %, gegenüber 60,3 % beim iGPT-L bei vergleichbarer Modellgröße – ein signifikanter Fortschritt. Zudem übertrifft VIM-L auch iGPT-XL, das mit zusätzlichen Web-Bild-Daten und einem größeren Modelltrainingsaufwand vortrainiert wurde.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp