WavePaint : Mixeur de tokens à faible consommation de ressources pour l’imputation auto-supervisée

Le traitement d’images par complétion (image inpainting), qui consiste à synthétiser les régions manquantes dans une image, permet de restaurer des zones occlues ou dégradées, tout en servant également de tâche préalable à l’apprentissage auto-supervisé. Les modèles actuels les plus performants pour la complétion d’images sont très coûteux en termes de calcul, car ils reposent sur des architectures de type vision transformer ou CNN, entraînés dans des cadres adversariaux ou de diffusion. Ce papier s’écarte des vision transformers en proposant une architecture entièrement convolutive, efficace en calcul, basée sur WaveMix — nommée WavePaint. Cette architecture utilise une transformation en ondelettes discrète 2D (DWT) pour effectuer un mélange de tokens spatial et multi-résolution, combiné à des couches convolutives. Le modèle proposé surpasser les états de l’art actuels en qualité de reconstruction, tout en utilisant moins de la moitié du nombre de paramètres, ainsi qu’un temps d’entraînement et d’évaluation nettement réduit. De plus, notre modèle obtient de meilleurs résultats que les architectures GAN actuelles sur le jeu de données CelebA-HQ, sans recourir à un discriminateur entraînable de manière adversarielle. Ces résultats suggèrent que les architectures neuronales inspirées des prioris naturels des images nécessitent moins de paramètres et de calculs pour atteindre une généralisation comparable à celle des transformers.