DeblurDiNAT : Un modèle compact offrant une généralisation exceptionnelle et une fidélité visuelle élevée sur des domaines non vus

Les récents réseaux de déflouage ont efficacement restauré des images nettes à partir d’images floues. Toutefois, ils peinent souvent à généraliser à des domaines inconnus. En outre, ces modèles se concentrent généralement sur des métriques de distortion telles que le PSNR et le SSIM, négligeant ainsi un aspect crucial : les métriques alignées avec la perception humaine. Pour surmonter ces limites, nous proposons DeblurDiNAT, un modèle de déflouage basé sur une architecture Transformer utilisant une attention à voisinage dilaté. Premièrement, DeblurDiNAT adopte un paradigme alterné de facteur de dilatation afin de capturer à la fois les motifs flous locaux et globaux, améliorant ainsi la généralisation et la clarté perceptuelle. Deuxièmement, un module d’apprentissage local croisant les canaux aide le bloc Transformer à comprendre les relations à courte portée entre canaux adjacents. Par ailleurs, nous introduisons un réseau feed-forward linéaire conçu de manière simple mais efficace. Enfin, un module de fusion de caractéristiques à deux étapes est proposé comme alternative à l’approche existante, permettant un traitement efficace des informations visuelles multi-échelles à travers les niveaux du réseau. Par rapport aux modèles de pointe, notre architecture compacte DeblurDiNAT démontre des capacités de généralisation supérieures et atteint des performances remarquables sur les métriques perceptuelles, tout en maintenant une taille de modèle avantageuse.