Modèle d'espace d'état visuel efficace pour le déflouage d'images

Les réseaux de neurones convolutifs (CNN) et les Vision Transformers (ViTs) ont atteint des performances remarquables dans la restauration d’images. Bien que les ViTs surpassent généralement les CNN en capturant efficacement les dépendances à longue portée et les caractéristiques spécifiques à l’entrée, leur complexité computationnelle augmente quadratiquement avec la résolution de l’image, ce qui limite leur application pratique dans la restauration d’images haute résolution. Dans cet article, nous proposons un modèle d’espace d’état visuel simple mais efficace (EVSSM) pour le déflouage d’images, en tirant parti des avantages des modèles d’espace d’état (SSM) pour les données visuelles. Contrairement aux méthodes existantes qui utilisent plusieurs balayages à direction fixe pour l’extraction de caractéristiques, augmentant ainsi significativement le coût computationnel, nous avons conçu un bloc de balayage visuel efficace qui applique diverses transformations géométriques avant chaque module basé sur SSM, permettant ainsi de capturer des informations non locales utiles tout en préservant une haute efficacité. En outre, afin de mieux capturer et représenter les informations locales, nous proposons un réseau feedforward basé sur le domaine fréquentiel, efficace et discriminant (EDFFN), capable d’estimer efficacement les informations fréquentielles utiles pour la restauration de l’image claire latente. Les résultats expérimentaux étendus montrent que l’EVSSM se distingue favorablement des méthodes de pointe sur des jeux de données standard ainsi que sur des images du monde réel. Le code est disponible à l’adresse suivante : https://github.com/kkkls/EVSSM.