HyperAIHyperAI
vor 2 Monaten

Stabilisierung des latenten Raums für autoregressive Bildmodellierung: Eine einheitliche Perspektive

Yongxin Zhu, Bocheng Li, Hang Zhang, Xin Li, Linli Xu, Lidong Bing
Stabilisierung des latenten Raums für autoregressive Bildmodellierung: Eine einheitliche Perspektive
Abstract

Latentbasierte Bildgenerierungsmodelle wie Latent Diffusion Models (LDMs) und Mask Image Models (MIMs) haben bei Bildgenerierungsaufgaben bemerkenswerten Erfolg erzielt. Diese Modelle nutzen in der Regel rekonstruktive Autoencoder wie VQGAN oder VAE, um Pixel in einen kompakteren latenten Raum zu kodieren und die Datenverteilung in diesem latenten Raum zu lernen, anstatt direkt von den Pixeln aus. Allerdings wirft diese Praxis eine wichtige Frage auf: Ist es wirklich die optimale Wahl? Als Antwort darauf beginnen wir mit einer faszinierenden Beobachtung: Trotz des gemeinsamen latenten Raums fallen autoregressive Modelle bei der Bildgenerierung deutlich hinter LDMs und MIMs zurück. Dies steht im scharfen Kontrast zum Bereich der natürlichsprachlichen Verarbeitung (NLP), wo das autoregressive Modell GPT eine dominante Position eingenommen hat. Um diese Diskrepanz anzugehen, führen wir eine einheitliche Perspektive auf die Beziehung zwischen latenterem Raum und Generierungsmodellen ein, wobei wir die Stabilität des latenten Raums in der Bildgenerierung betonen. Darüber hinaus schlagen wir einen einfachen, aber effektiven diskreten Bildtokenizer vor, um den latenten Raum für die Bildgenerierung zu stabilisieren. Experimentelle Ergebnisse zeigen, dass die autoregressive Bildmodellierung mit unserem Tokenizer (DiGIT) sowohl das Bildverstehen als auch die Bildgenerierung durch das Prinzip der nächsten Token-Vorhersage verbessert, was für GPT-Modelle inherent einfach ist, aber für andere Generierungsmodelle herausfordernd ist. Bemerkenswerterweise übertrifft ein GPT-artiges autoregressives Modell für Bilder zum ersten Mal LDMs und zeigt ebenfalls erhebliche Verbesserungen ähnlich denen von GPT bei einer Erhöhung der Modellgröße. Unsere Ergebnisse unterstreichen das Potenzial eines optimierten latenten Raums sowie die Integration diskreter Tokenisierung zur Steigerung der Fähigkeiten von Bildgenerierungsmodellen. Der Code ist unter https://github.com/DAMO-NLP-SG/DiGIT verfügbar.

Stabilisierung des latenten Raums für autoregressive Bildmodellierung: Eine einheitliche Perspektive | Neueste Forschungsarbeiten | HyperAI