RainMamba: Verbessertes Lokalitätslernen mit Zustandsraummodellen für die Entfernung von Regen in Videos

Die Outdoor-Visionssysteme werden häufig durch Regenstreifen und -tropfen kontaminiert, was die Leistung von visuellen Aufgaben und Multimediaanwendungen erheblich beeinträchtigt. Die Natur von Videos bietet redundante zeitliche Hinweise für die Entfernung von Regen mit höherer Stabilität. Traditionelle Video-Entfernungsmethoden für Regen basieren stark auf der Schätzung des optischen Flusses und kernelbasierten Verfahren, welche ein begrenztes Rezeptivfeld haben. Allerdings ermöglichen Transformer-Architekturen, obwohl sie langfristige Abhängigkeiten erfassen können, eine erhebliche Zunahme der rechnerischen Komplexität. Kürzlich hat der linear-komplexe Operator der Zustandsraummodelle (SSMs) im Gegensatz dazu effizientes langfristiges zeitliches Modellieren erleichtert, was für die Entfernung von Regenstreifen und -tropfen in Videos entscheidend ist. Überraschenderweise zerstört sein eindimensionaler sequentieller Prozess auf Videos jedoch lokale Korrelationen in der räumlich-zeitlichen Dimension, indem er benachbarte Pixel voneinander entfernt. Um dies zu beheben, präsentieren wir ein verbessertes SSMs-basiertes Video-Entfernungsnetzwerk (RainMamba) mit einem neuartigen Hilbert-Scanning-Mechanismus, um sequenzbezogene lokale Informationen besser zu erfassen. Wir führen außerdem eine differenzgesteuerte dynamische kontrastive Lokalitäts-Lernstrategie ein, um die Fähigkeit des vorgeschlagenen Netzwerks zur Patch-Level-Selbstähnlichkeits-Lernung zu verbessern. Ausführliche Experimente anhand vier synthetischer Video-Entfernung-Datensätze sowie realer regnerischer Videos zeigen die Effektivität und Effizienz unseres Netzwerks bei der Entfernung von Regenstreifen und -tropfen. Unser Code und unsere Ergebnisse sind unter https://github.com/TonyHongtaoWu/RainMamba verfügbar.