Reduzierung des Informationsverlusts in Transformers für pluralistische Bildinpainting

Transformers haben kürzlich bei der pluralistischen Bildinpainting großes Erfolg verzeichnet. Allerdings stellen wir fest, dass bestehende Lösungen auf Basis von Transformers jedes Pixel als Token betrachten und daher von zwei Aspekten her mit Informationsverlusten konfrontiert sind: 1) Sie reduzieren die Auflösung des Eingabebildes aus Effizienzgründen erheblich, was zu Informationsverlust und zusätzlicher Fehlanpassung an den Rändern der maskierten Bereiche führt. 2) Sie quantisieren die $256^3$ RGB-Pixel auf eine geringe Anzahl (wie zum Beispiel 512) von quantisierten Pixeln. Die Indizes der quantisierten Pixel werden als Tokens für die Eingaben und Vorhersageziele des Transformers verwendet. Obwohl ein zusätzliches CNN-Netzwerk zur Aufsampling und Verfeinerung der niedrigen Auflösungsergebnisse eingesetzt wird, ist es schwierig, die verloren gegangene Information wiederherzustellen.Um so viel wie möglich Eingangsinformationen zu bewahren, schlagen wir einen neuen transformerbasierten Rahmen „PUT“ vor. Insbesondere, um das Downsamplen der Eingabe zu vermeiden und gleichzeitig die Recheneffizienz zu gewährleisten, entwickeln wir einen patchbasierten Autoencoder P-VQVAE, bei dem der Encoder das maskierte Bild in nicht überlappende Patch-Tokens umwandelt und der Decoder die maskierten Bereiche aus den eingefügten Tokens rekonstruiert, während die unmaskierten Bereiche unverändert bleiben. Um den durch Quantisierung verursachten Informationsverlust zu beseitigen, wird ein Unquantized Transformer (UQ-Transformer) angewendet, der die Merkmale direkt vom P-VQVAE-Encoder als Eingabe ohne Quantisierung verwendet und nur die quantisierten Tokens als Vorhersageziele betrachtet.Ausführliche Experimente zeigen, dass PUT bei der Bildtreue deutlich besser abschneidet als state-of-the-art-Methoden, insbesondere bei großen maskierten Bereichen und komplexen großen Datensätzen. Der Code ist unter https://github.com/liuqk3/PUT verfügbar.