Verbesserung der Video-Super-Resolution durch implizite, auf Resampling basierende Ausrichtung

Bei der Video-Super-Resolution ist es üblich, eine frameweise Ausrichtung einzusetzen, um die Informationsweiterleitung über die Zeit zu unterstützen. Die Rolle der Ausrichtung ist für die Low-Level-Verbesserung in Videos gut untersucht, doch überschauen bestehende Arbeiten einen kritischen Schritt – die Resampling-Phase. Durch umfangreiche Experimente zeigen wir, dass eine effektive Ausrichtung voraussetzt, dass das Resampling das Referenz-Frequenzspektrum bewahrt, gleichzeitig aber räumliche Verzerrungen minimiert. Allerdings verwenden die meisten bestehenden Ansätze einfach die Standardwahl der bilinearen Interpolation für das Resampling, obwohl diese glättende Wirkung besitzt und somit der Super-Resolution entgegenwirkt. Auf Basis dieser Beobachtungen schlagen wir eine implizite Resampling-basierte Ausrichtung vor. Die Abtastpositionen werden mittels sinusförmiger Positions-Encoder kodiert, während die Werte mittels eines Koordinatennetzes und einer fensterbasierten Kreuz-Attention geschätzt werden. Wir zeigen, dass die bilineare Interpolation inhärent hochfrequente Informationen dämpft, während ein MLP-basiertes Koordinatennetzwerk eine größere Bandbreite an Frequenzen annähern kann. Experimente an synthetischen und realen Datensätzen belegen, dass die Ausrichtung mit unserem vorgeschlagenen impliziten Resampling die Leistung state-of-the-art-Frameworks erheblich verbessert, ohne dabei erheblich auf Rechenleistung oder Parameteranzahl Einfluss zu nehmen.