MoVQ: Modulierung quantisierter Vektoren für hochauflösende Bildgenerierung

Obwohl zweistufige vektorquantisierte (VQ) generative Modelle die Synthese von hochauflösenden und hochfidelitätsreichen Bildern ermöglichen, kodiert ihr Quantisierungsoperator ähnliche Bildbereiche in denselben Index, was bei herkömmlichen Dekodierarchitekturen zu wiederholten Artefakten in benachbarten, ähnlichen Regionen führt. Um dieses Problem anzugehen, schlagen wir vor, eine räumlich bedingte Normalisierung einzuführen, um die quantisierten Vektoren zu modulieren und somit räumlich variierende Informationen in die eingebetteten Indexkarten einzufügen. Dadurch wird der Dekoder angeregt, photorealistischere Bilder zu generieren. Zudem nutzen wir eine multikanalige Quantisierung, um die Rekombinationsfähigkeit der diskreten Codes zu erhöhen, ohne die Modell- oder Codebuch-Kosten zu steigern. Außerdem verwenden wir zur Generierung diskreter Tokens im zweiten Stadium einen Masked Generative Image Transformer (MaskGIT), um eine zugrundeliegende Priorverteilung im komprimierten Latentraum zu lernen – dies ist deutlich schneller als bei herkömmlichen autoregressiven Modellen. Experimente auf zwei Benchmark-Datensätzen zeigen, dass unser vorgeschlagener modulierter VQGAN die Qualität der rekonstruierten Bilder erheblich verbessert und gleichzeitig hochfidelitätsreiche Bildgenerierung ermöglicht.