MAT : Transformer Aware du Masque pour le Complétion d'Images avec Trous Importants

Des études récentes ont mis en évidence l'importance de modéliser les interactions à longue portée dans le problème de l'insertion d'images (inpainting). Afin d'atteindre cet objectif, les approches existantes exploitent soit des techniques d'attention autonomes, soit des transformateurs, mais généralement à faible résolution, en raison des contraintes liées à la charge computationnelle. Dans cet article, nous présentons un nouveau modèle basé sur les transformateurs pour l'insertion d'images à grands trous, qui combine les avantages des transformateurs et des réseaux de convolution afin de traiter efficacement des images haute résolution. Nous avons soigneusement conçu chaque composant de notre architecture afin de garantir une fidélité élevée et une diversité significative des images reconstruites. Plus précisément, nous avons développé un bloc transformer spécifiquement conçu pour l'insertion d'images, dans lequel le module d'attention ne collecte les informations non locales que parmi un sous-ensemble de tokens valides partiellement présents, comme indiqué par un masque dynamique. Des expériences étendues démontrent que le nouveau modèle atteint des performances de pointe sur plusieurs jeux de données de référence. Le code source est disponible à l'adresse suivante : https://github.com/fenglinglwb/MAT.