HyperAIHyperAI
il y a 7 jours

Transformers de vision pour le débrouillardage d’image unique

Yuda Song, Zhuqing He, Hui Qian, Xin Du
Transformers de vision pour le débrouillardage d’image unique
Résumé

Le débrouillardage d’images est une tâche typique de vision de bas niveau visant à estimer des images sans brouillard à partir d’images brumeuses. Ces dernières années, les méthodes basées sur les réseaux de neurones convolutifs ont dominé le domaine du débrouillardage d’images. Toutefois, les vision Transformers, qui ont récemment marqué un progrès significatif dans les tâches de vision de haut niveau, n’ont pas encore apporté de nouvelles perspectives au débrouillardage d’images. En partant de l’architecte Swin Transformer, largement utilisé, nous constatons que plusieurs de ses composantes clés ne sont pas adaptées à ce type de tâche. À cette fin, nous proposons DehazeFormer, une architecture intégrant plusieurs améliorations, notamment une couche de normalisation modifiée, une fonction d’activation révisée et un schéma renforcé d’agrégation d’informations spatiales. Nous entraînons plusieurs variantes de DehazeFormer sur divers jeux de données afin de démontrer leur efficacité. Plus précisément, sur l’ensemble SOTS indoor, le plus couramment utilisé, notre modèle léger surpassé FFA-Net tout en n’ayant que 25 % du nombre de paramètres (#Param) et 5 % de coût computationnel. À notre connaissance, notre modèle grand est la première méthode à atteindre un PSNR supérieur à 40 dB sur l’ensemble SOTS indoor, dépassant de manière significative les méthodes précédemment état de l’art. Nous avons également collecté un grand jeu de données réalistes dédié au débrouillardage des images satellites à haute résolution, afin d’évaluer la capacité de notre méthode à supprimer un brouillard fortement non homogène.

Transformers de vision pour le débrouillardage d’image unique | Articles de recherche récents | HyperAI