HyperAIHyperAI
il y a 17 jours

Réexamen du déflouage d'images avec un ConvNet efficace

Lingyan Ruan, Mojtaba Bemana, Hans-peter Seidel, Karol Myszkowski, Bin Chen
Réexamen du déflouage d'images avec un ConvNet efficace
Résumé

Le déflouage d’images vise à restaurer l’image nette cachée à partir de sa version floue, et connaît une large gamme d’applications en vision par ordinateur. Pendant de nombreuses années, les réseaux de neurones convolutifs (CNN) ont montré de solides performances dans ce domaine. Toutefois, récemment, une architecture alternative, le Transformer, a démontré des performances encore supérieures. On peut attribuer cette supériorité au mécanisme d’attention auto-associative à plusieurs têtes (MHSA), qui offre un champ réceptif effectif plus grand et une meilleure adaptabilité au contenu d’entrée par rapport aux CNN. Toutefois, en raison du coût computationnel élevé du MHSA, qui croît quadratiquement avec la résolution d’entrée, cette approche devient peu pratique pour les tâches de déflouage d’images haute résolution. Dans ce travail, nous proposons un réseau léger unifié basé sur les CNN, caractérisé par un champ réceptif effectif (ERF) étendu, et capable de rivaliser voire dépasser les Transformers tout en supportant un coût computationnel moindre. Notre conception clé repose sur un bloc CNN efficace, nommé LaKD, intégrant une convolution creuse à noyau large et une structure de mélange spatial-canal, permettant d’atteindre un ERF comparable ou supérieur à celui des Transformers, avec une taille de paramètres plus réduite. Plus précisément, nous obtenons une amélioration de +0,17 dB / +0,43 dB en PSNR par rapport au modèle de pointe Restormer sur les jeux de données de déflouage par défaut de mise au point / déflouage par mouvement, avec 32 % de paramètres en moins et 39 % de MACs en moins. Des expériences étendues démontrent la performance supérieure de notre réseau ainsi que l’efficacité de chaque module. En outre, nous proposons une métrique compacte et intuitive, ERFMeter, permettant de caractériser quantitativement le champ réceptif effectif, et qui présente une forte corrélation avec la performance du réseau. Nous espérons que ce travail incitera la communauté scientifique à explorer davantage les avantages et inconvénients des architectures CNN et Transformers au-delà des tâches de déflouage d’images.