Stripformer: Strip Transformer für schnelles Bildentblurren

Bilder, die in dynamischen Szenen aufgenommen wurden, können unerwünschte Bewegungsunschärfen enthalten, die die visuelle Qualität erheblich beeinträchtigen. Diese Unschärfe führt zu kurz- und langreichweitigen, bereichsbezogenen Glättungsartefakten, die oft gerichtet und nicht gleichmäßig verteilt sind und daher schwer zu entfernen sind. Inspiriert durch den aktuellen Erfolg von Transformers in Aufgaben des Computer-Vision und der Bildverarbeitung entwickeln wir Stripformer, eine auf Transformers basierende Architektur, die intra- und inter-Strip-Token konstruiert, um die Bildmerkmale in horizontaler und vertikaler Richtung neu zu gewichten und damit verschwommene Muster unterschiedlicher Orientierungen zu erfassen. Durch die Stapelung abwechselnder intra-Strip- und inter-Strip-Attention-Schichten wird die Stärke der Unschärfe besser sichtbar gemacht. Neben der Fähigkeit, bereichsbezogene verschwommene Muster verschiedener Orientierungen und Stärken zu detektieren, ist Stripformer zudem eine token-effiziente und parameter-effiziente Transformer-Modellarchitektur, die deutlich weniger Speicherplatz und Rechenkosten verbraucht als der herkömmliche Transformer, aber dennoch besser funktioniert, ohne auf riesige Mengen an Trainingsdaten angewiesen zu sein. Experimentelle Ergebnisse zeigen, dass Stripformer gegenüber den aktuellen State-of-the-Art-Modellen im Bereich der Entschärfung dynamischer Szenen überzeugt.