HyperAIHyperAI

Command Palette

Search for a command to run...

MoVQ: Modulierung quantisierter Vektoren für hochauflösende Bildgenerierung

Chuanxia Zheng Long Tung Vuong Jianfei Cai Dinh Phung

Zusammenfassung

Obwohl zweistufige vektorquantisierte (VQ) generative Modelle die Synthese von hochauflösenden und hochfidelitätsreichen Bildern ermöglichen, kodiert ihr Quantisierungsoperator ähnliche Bildbereiche in denselben Index, was bei herkömmlichen Dekodierarchitekturen zu wiederholten Artefakten in benachbarten, ähnlichen Regionen führt. Um dieses Problem anzugehen, schlagen wir vor, eine räumlich bedingte Normalisierung einzuführen, um die quantisierten Vektoren zu modulieren und somit räumlich variierende Informationen in die eingebetteten Indexkarten einzufügen. Dadurch wird der Dekoder angeregt, photorealistischere Bilder zu generieren. Zudem nutzen wir eine multikanalige Quantisierung, um die Rekombinationsfähigkeit der diskreten Codes zu erhöhen, ohne die Modell- oder Codebuch-Kosten zu steigern. Außerdem verwenden wir zur Generierung diskreter Tokens im zweiten Stadium einen Masked Generative Image Transformer (MaskGIT), um eine zugrundeliegende Priorverteilung im komprimierten Latentraum zu lernen – dies ist deutlich schneller als bei herkömmlichen autoregressiven Modellen. Experimente auf zwei Benchmark-Datensätzen zeigen, dass unser vorgeschlagener modulierter VQGAN die Qualität der rekonstruierten Bilder erheblich verbessert und gleichzeitig hochfidelitätsreiche Bildgenerierung ermöglicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp