Vers une restauration d’image améliorée : atténuation de l’insertion d’objets indésirables et préservation de la cohérence des couleurs

Les avancées récentes dans le domaine du remplissage d’images (image inpainting) s’appuient de plus en plus sur des modèles génératifs pour traiter des masques irréguliers de grande taille. Toutefois, ces modèles peuvent produire des images remplissées irréalistes en raison de deux problèmes principaux : (1) Insertion d’objets indésirables : même en présence de régions non masquées servant de contexte, les modèles génératifs peuvent encore générer des objets arbitraires dans la zone masquée, qui ne s’intègrent pas harmonieusement au reste de l’image. (2) Incohérence de couleur : les régions remplissées présentent souvent des décalages chromatiques, entraînant une apparence floue et réduisant ainsi la qualité visuelle de l’image. Une réentraînement du modèle génératif pourrait résoudre ces défauts, mais s’avère coûteux, car les modèles d’état de l’art basés sur la diffusion latente ou le flux rectifié nécessitent un processus d’entraînement en trois étapes : entraînement d’un VAE, entraînement d’un U-Net ou d’un transformateur génératif, puis ajustement fin pour le remplissage. À la place, ce papier propose une approche post-traitements, nommée ASUKA (Aligned Stable inpainting with UnKnown Areas prior), destinée à améliorer les performances des modèles de remplissage. Pour atténuer l’insertion d’objets fantômes, nous exploitons un Auto-Encoder Masqué (MAE) afin d’imposer des priorités fondées sur la reconstruction, ce qui limite efficacement l’hallucination d’objets tout en préservant les capacités de génération du modèle. Pour corriger l’incohérence chromatique, nous proposons un décodeur VAE spécialisé, qui traite la décodification latente vers image comme une tâche de harmonisation locale, réduisant ainsi de manière significative les décalages de couleur pour un remplissage plus cohérent sur le plan chromatique. Nous validons ASUKA sur les variantes de remplissage de SD 1.5 et FLUX, en utilisant les jeux de données Places2 ainsi que MISATO, une nouvelle collection diversifiée de données que nous proposons. Les résultats montrent que ASUKA atténue efficacement l’hallucination d’objets et améliore la cohérence chromatique par rapport aux modèles de diffusion classiques, aux modèles à flux rectifié et à d’autres méthodes de remplissage existantes.