Spatio-temporale deformierbare Aufmerksamkeitsnetzwerk für Video-Entschärfung

Der entscheidende Erfolgsfaktor von Video-Deblurring-Methoden besteht darin, die unscharfen Pixel des Mittelbildes durch scharfe Pixel der benachbarten Videobilder zu kompensieren. Daher richten die gängigen Methoden die benachbarten Frames basierend auf den geschätzten Optischen Flüssen aus und fügen die ausgerichteten Frames zur Rekonstruktion zusammen. Diese Ansätze erzielen jedoch manchmal unbefriedigende Ergebnisse, da sie selten die Scharfgradstufen der einzelnen Pixel berücksichtigen, was zu einer Einbringung unscharfer Pixel aus den Videobildern führen kann. Tatsächlich sind nicht alle Pixel in den Videobildern scharf und förderlich für das Deblurring. Um dieses Problem anzugehen, schlagen wir das räumlich-zeitliche deformierbare Aufmerksamkeitsnetzwerk (Spatio-Temporal Deformable Attention Network, STDANet) für das Video-Deblurring vor, das Informationen aus scharfen Pixeln extrahiert, indem es die pixelweisen Scharfgradstufen der Videobilder berücksichtigt. Konkret handelt es sich bei STDANet um ein Encoder-Decoder-Netzwerk, das mit einem Bewegungsschätzer und einem räumlich-zeitlichen deformierbaren Aufmerksamkeitsmodul (Spatio-Temporal Deformable Attention, STDA) kombiniert ist. Der Bewegungsschätzer berechnet grobe optische Flüsse, die als Basis-Offset-Werte im STDA-Modul dienen, um entsprechende scharfe Pixel zu identifizieren. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene STDANet gegenüber aktuellen State-of-the-Art-Methoden auf den Datensätzen GoPro, DVD und BSD überzeugende Leistungen erzielt.