HyperAIHyperAI
vor 2 Monaten

MaskGIT: Maskierter generativer Bildtransformer

Chang, Huiwen ; Zhang, Han ; Jiang, Lu ; Liu, Ce ; Freeman, William T.
MaskGIT: Maskierter generativer Bildtransformer
Abstract

Generative Transformer haben in der Computer Vision Gemeinschaft rasch an Popularität gewonnen, insbesondere bei der Synthese hochauflösender und hochwertiger Bilder. Die bisher besten Generative Transformer-Modelle behandeln jedoch ein Bild noch immer naiv als eine Sequenz von Tokens und decodieren es sequenziell gemäß der Raster-Scan-Reihenfolge (d.h. zeilenweise). Wir finden diese Strategie weder optimal noch effizient. In dieser Arbeit schlagen wir ein neues Paradigma für die Bildsynthese vor, das einen bidirektionalen Transformer-Decoder verwendet, den wir MaskGIT nennen. Während des Trainings lernt MaskGIT, zufällig maskierte Tokens durch Beachten von Tokens in alle Richtungen zu vorhersagen. Bei der Inferenz beginnt das Modell mit der gleichzeitigen Generierung aller Tokens eines Bildes und verfeinert dann das Bild iterativ unter Berücksichtigung der vorherigen Generation. Unsere Experimente zeigen, dass MaskGIT erheblich besser abschneidet als das bislang beste Transformer-Modell auf dem ImageNet-Datensatz und die autoregressive Decodierung um bis zu 64 Mal beschleunigt. Darüber hinaus verdeutlichen wir, dass MaskGIT leicht auf verschiedene Bildbearbeitungsaufgaben wie Inpainting, Extrapolation und Bildmanipulation erweitert werden kann.