HyperAIHyperAI
il y a 17 jours

PPformer : Utilisation de l'attention croisée pixel-par-pixel et patch-par-patch pour l'amélioration d'images en faible éclairage

{X Qin, Y Zhong, J Dang}
Résumé

Récemment, les méthodes fondées sur les Transformers ont fait preuve d'une compétitivité notable par rapport aux méthodes basées sur les CNN pour la tâche d'amélioration d'images en faible éclairage, en exploitant l'attention auto-associative pour l'extraction de caractéristiques. Les approches basées sur les Transformers se distinguent particulièrement dans la modélisation des dépendances entre pixels à longue portée, essentielles pour obtenir une meilleure illumination, des couleurs naturelles et un contraste accru dans les images en faible lumière. Toutefois, le coût computationnel élevé de l'attention auto-associative limite leur développement dans ce domaine, tandis que certaines études peinent à trouver un équilibre entre précision et efficacité computationnelle. Dans ce travail, nous proposons un réseau léger et efficace, nommé PPformer, basé sur un mécanisme d'attention croisée à niveau pixel et niveau patch, spécifiquement conçu pour l'amélioration d'images en faible éclairage. PPformer est un réseau hybride CNN-Transformer divisé en trois composantes principales : une branche locale, une branche globale et une attention croisée double. Chacune de ces parties joue un rôle fondamental dans le fonctionnement du modèle. Plus précisément, la branche locale extrait des informations structurelles locales à l’aide d’une pile de modules d’amélioration étendus (Wide Enhancement Modules), tandis que la branche globale fournit des informations raffinées à grande échelle grâce au module d’attention par patch croisée (Cross Patch Module) et au module de convolution globale (Global Convolution Module). En outre, contrairement à l’attention auto-associative classique, nous utilisons les informations sémantiques globales extraites pour guider la modélisation des dépendances entre les régions locales et non locales. Grâce au calcul de l’attention croisée double, PPformer parvient à restaurer efficacement les images avec une meilleure cohérence des couleurs, une luminosité naturelle et un contraste élevé. Grâce au mécanisme d’attention croisée double proposé, PPformer capture de manière efficace les dépendances à la fois au niveau pixel et au niveau patch pour une carte de caractéristiques complète. Des expérimentations étendues sur onze jeux de données de référence réels démontrent que PPformer atteint des résultats quantitatifs et qualitatifs supérieurs à ceux des méthodes les plus avancées précédemment publiées.