Réseau à caractéristiques complémentaires améliorées avec Vision Transformer pour le débrouillardage d'images

Les modèles conventionnels de débrouillardisation basés sur les réseaux de neurones convolutifs (CNN) souffrent de deux problèmes essentiels : le cadre de débrouillardisation (limité en interprétabilité) et les couches de convolution (indépendantes du contenu et inefficaces pour apprendre des informations sur les dépendances à longue portée). Dans ce travail, nous proposons tout d’abord un nouveau cadre amélioré par des caractéristiques complémentaires, dans lequel ces caractéristiques sont apprises à travers plusieurs sous-tâches complémentaires, puis combinées pour renforcer les performances de la tâche principale. L’un des avantages marquants de ce cadre repose sur le fait que les sous-tâches complémentaires choisies de manière ciblée permettent d’extraire des caractéristiques complémentaires faiblement dépendantes, évitant ainsi l’apprentissage redondant et inefficace au sein des réseaux. Nous avons conçu un nouveau réseau de débrouillardisation fondé sur ce cadre. Plus précisément, nous avons choisi la décomposition de l’image intrinsèque comme sous-tâches complémentaires, en utilisant les sous-tâches de prédiction de réflectance et d’ombrage pour extraire respectivement des caractéristiques complémentaires liées à la couleur et à la texture. Pour agréger efficacement ces caractéristiques complémentaires, nous proposons un module de sélection de caractéristiques complémentaires (CFSM) afin de sélectionner les caractéristiques les plus pertinentes pour la débrouillardisation. Par ailleurs, nous introduisons une nouvelle version du bloc vision transformer, nommée Hybrid Local-Global Vision Transformer (HyLoG-ViT), que nous intégrons dans notre réseau de débrouillardisation. Le bloc HyLoG-ViT comporte deux chemins, local et global, permettant de capturer respectivement les dépendances locales et globales. En conséquence, le bloc HyLoG-ViT introduit une notion de localité dans le réseau tout en permettant la capture des dépendances globales et à longue portée. Des expériences étendues sur des tâches de débrouillardisation homogènes, non homogènes et nocturnes démontrent que le réseau de débrouillardisation proposé atteint des performances comparables, voire supérieures, à celles des modèles basés sur les CNN.