Réseau hiérarchique de patchs attentif spatial pour le flou de mouvement adaptatif

Ce papier aborde le problème du déflouage du mouvement dans des scènes dynamiques. Bien que les architectures entièrement convolutionnelles et end-to-end aient récemment permis d’améliorer l’état de l’art en matière de déflouage non uniforme du mouvement, leur compromis entre performance et complexité reste encore sous-optimal. Les approches existantes atteignent un champ réceptif étendu en augmentant le nombre de couches convolutionnelles génériques et la taille des noyaux, mais cela se fait au détriment de la taille du modèle et de la vitesse d’inférence. Dans ce travail, nous proposons une architecture efficace basée sur une adaptation par pixel et une attention sur les caractéristiques, capable de traiter des variations importantes du flou à différentes localisations spatiales, tout en adaptant le traitement à chaque image test. Nous introduisons également un module efficace de filtrage global-local conscient du contenu, qui améliore significativement les performances en tenant compte non seulement des dépendances globales, mais aussi en exploitant dynamiquement les informations provenant des pixels voisins. Nous utilisons une architecture hiérarchique par patch composée de ce module, qui découvre implicitement les variations spatiales du flou présentes dans l’image d’entrée, permettant ainsi une modulation locale et globale des caractéristiques intermédiaires. Des comparaisons qualitatives et quantitatives étendues avec les méthodes antérieures sur des benchmarks de déflouage démontrent que notre approche offre des améliorations significatives par rapport à l’état de l’art en termes de précision et de vitesse.