HyperAIHyperAI
il y a 2 mois

Réduire la perte d'information dans les Transformers pour l'inpainting d'images pluraliste

Qiankun Liu; Zhentao Tan; Dongdong Chen; Qi Chu; Xiyang Dai; Yinpeng Chen; Mengchen Liu; Lu Yuan; Nenghai Yu
Réduire la perte d'information dans les Transformers pour l'inpainting d'images pluraliste
Résumé

Les Transformers ont connu un grand succès récemment dans l'inpainting d'images plurielles. Cependant, nous constatons que les solutions existantes basées sur les Transformers considèrent chaque pixel comme un jeton, ce qui entraîne une perte d'information sous deux angles : 1) Elles réduisent la résolution de l'image d'entrée pour des raisons de performance, ce qui provoque une perte d'information et un décalage supplémentaire aux frontières des régions masquées. 2) Elles quantifient les pixels RGB ($256^3$) à un nombre limité (par exemple, 512) de pixels quantifiés. Les indices des pixels quantifiés sont utilisés comme jetons pour les entrées et les cibles de prédiction du Transformer. Bien qu'un réseau CNN supplémentaire soit utilisé pour augmenter et affiner les résultats à faible résolution, il est difficile de récupérer l'information perdue.Pour conserver au maximum l'information d'entrée, nous proposons un nouveau cadre basé sur les Transformers appelé « PUT ». Plus précisément, afin d'éviter le downsampling de l'entrée tout en maintenant l'efficacité computationnelle, nous avons conçu un auto-encodeur par patch P-VQVAE, où l'encodeur convertit l'image masquée en jetons de patch non chevauchants et le décodeur restaure les régions masquées à partir des jetons inpaintés tout en conservant les régions non masquées inchangées. Pour éliminer la perte d'information due à la quantification, un Transformer non quantifié (UQ-Transformer) est appliqué, qui prend directement les caractéristiques issues de l'encodeur P-VQVAE comme entrée sans quantification et considère uniquement les jetons quantifiés comme cibles de prédiction.Des expériences approfondies montrent que PUT surpasse largement les méthodes de pointe en termes de fidélité des images, notamment pour les grandes régions masquées et des jeux de données complexes à grande échelle. Le code source est disponible sur https://github.com/liuqk3/PUT.

Réduire la perte d'information dans les Transformers pour l'inpainting d'images pluraliste | Articles de recherche récents | HyperAI