HyperAIHyperAI

Command Palette

Search for a command to run...

MaskGIT: Maskierter generativer Bildtransformer

Huiwen Chang Han Zhang Lu Jiang Ce Liu* William T. Freeman

Zusammenfassung

Generative Transformer haben in der Computer Vision Gemeinschaft rasch an Popularität gewonnen, insbesondere bei der Synthese hochauflösender und hochwertiger Bilder. Die bisher besten Generative Transformer-Modelle behandeln jedoch ein Bild noch immer naiv als eine Sequenz von Tokens und decodieren es sequenziell gemäß der Raster-Scan-Reihenfolge (d.h. zeilenweise). Wir finden diese Strategie weder optimal noch effizient. In dieser Arbeit schlagen wir ein neues Paradigma für die Bildsynthese vor, das einen bidirektionalen Transformer-Decoder verwendet, den wir MaskGIT nennen. Während des Trainings lernt MaskGIT, zufällig maskierte Tokens durch Beachten von Tokens in alle Richtungen zu vorhersagen. Bei der Inferenz beginnt das Modell mit der gleichzeitigen Generierung aller Tokens eines Bildes und verfeinert dann das Bild iterativ unter Berücksichtigung der vorherigen Generation. Unsere Experimente zeigen, dass MaskGIT erheblich besser abschneidet als das bislang beste Transformer-Modell auf dem ImageNet-Datensatz und die autoregressive Decodierung um bis zu 64 Mal beschleunigt. Darüber hinaus verdeutlichen wir, dass MaskGIT leicht auf verschiedene Bildbearbeitungsaufgaben wie Inpainting, Extrapolation und Bildmanipulation erweitert werden kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp