Réseau d'attention déformable spatio-temporelle pour le flou vidéo

Le facteur clé du succès des méthodes de déflouage vidéo réside dans la compensation des pixels flous du cadre central par les pixels nets des cadres voisins. Par conséquent, les méthodes dominantes alignent les cadres adjacents sur la base des flux optiques estimés, puis fusionnent les cadres alignés afin de réaliser la restauration. Toutefois, ces approches peuvent parfois produire des résultats insatisfaisants, car elles tiennent rarement compte des niveaux de flou des pixels, ce qui peut entraîner l’introduction de pixels flous provenant des cadres vidéo. En réalité, tous les pixels des cadres vidéo ne sont pas nets, ni nécessairement utiles pour le déflouage. Pour résoudre ce problème, nous proposons un réseau d’attention déformable spatio-temporelle (STDANet) pour le déflouage vidéo, qui extrait efficacement les informations provenant des pixels nets en tenant compte des niveaux de flou au niveau pixel par pixel. Plus précisément, STDANet est un réseau encodage-décodage combiné avec un estimateur de mouvement et un module d’attention déformable spatio-temporelle (STDA), où l’estimateur de mouvement prédit des flux optiques grossiers utilisés comme décalages de base pour localiser les pixels nets correspondants dans le module STDA. Les résultats expérimentaux montrent que le STDANet proposé se distingue favorablement des méthodes de pointe sur les jeux de données GoPro, DVD et BSD.