RainMamba : Amélioration de l'apprentissage local avec des modèles d'espace d'état pour le dépluie vidéo

Les systèmes de vision extérieure sont fréquemment contaminés par les traînées et gouttelettes de pluie, qui dégradent considérablement les performances des tâches visuelles et des applications multimédia. La nature des vidéos offre des indices temporels redondants pour l'élimination de la pluie avec une stabilité supérieure. Les méthodes traditionnelles de dépluie vidéo s'appuient fortement sur l'estimation du flot optique et les approches basées sur le noyau, qui ont un champ récepteur limité. Cependant, les architectures de transformateur, bien qu'elles permettent des dépendances à long terme, entraînent une augmentation significative de la complexité computationnelle. Récemment, l'opérateur linéaire-complexe des modèles d'espace d'état (SSMs) a au contraire facilité une modélisation temporelle à long terme efficace, ce qui est crucial pour l'élimination des traînées et gouttelettes de pluie dans les vidéos. De manière inattendue, son processus séquentiel unidimensionnel sur les vidéos rompt les corrélations locales dans la dimension spatio-temporelle en éloignant les pixels adjacents. Pour remédier à cela, nous présentons un réseau amélioré basé sur les SSMs pour la dépluie vidéo (RainMamba) doté d'un nouveau mécanisme de balayage Hilbert afin de mieux capturer l'information locale au niveau séquentiel. Nous introduisons également une stratégie d'apprentissage local contrastif dynamique guidée par la différence pour renforcer la capacité d'apprentissage d'autosimilarité au niveau des patches du réseau proposé. Des expériences étendues sur quatre jeux de données synthétiques de dépluie vidéo et sur des vidéos réelles prises sous la pluie montrent l'efficacité et l'efficience de notre réseau dans l'élimination des traînées et gouttelettes de pluie. Notre code et nos résultats sont disponibles à l'adresse suivante : https://github.com/TonyHongtaoWu/RainMamba.