Neubewertung der Ausrichtung in Video-Super-Resolution-Transformern

Die Ausrichtung benachbarter Frames gilt als essenzielle Operation in der Video-Super-Resolution (VSR). Moderne VSR-Modelle, einschließlich der neuesten VSR-Transformers, verfügen im Allgemeinen über gut gestaltete Ausrichtungsmodulen. Dennoch könnte der Fortschritt der Selbst-Attention-Mechanismen diese gängige Praxis in Frage stellen. In diesem Paper überdenken wir die Rolle der Ausrichtung in VSR-Transformern und machen mehrere gegenintuitive Beobachtungen. Unsere Experimente zeigen: (i) VSR-Transformers können mehrere Frames aus nicht ausgerichteten Videos direkt nutzen, und (ii) bestehende Ausrichtungsmethoden können manchmal schädlich für VSR-Transformers sein. Diese Beobachtungen deuten darauf hin, dass sich die Leistung von VSR-Transformers durch einfaches Entfernen des Ausrichtungsmoduls und die Verwendung eines größeren Aufmerksamkeitsfensters weiter verbessern lässt. Dennoch führt ein solcher Ansatz zu einer erheblichen Steigerung des Rechenaufwands und kann große Bewegungen nicht effektiv bewältigen. Daher schlagen wir eine neue und effiziente Ausrichtungsmethode namens Patch-Ausrichtung vor, die statt Pixeln Bildpatches ausrichtet. VSR-Transformers, die mit Patch-Ausrichtung ausgestattet sind, erreichen auf mehreren Benchmarks Spitzenleistungen. Unsere Arbeit liefert wertvolle Einblicke in die Nutzung von Mehr-Frames-Informationen in der VSR und in die Auswahl geeigneter Ausrichtungsmethoden für verschiedene Netzwerke und Datensätze. Der Quellcode und die Modelle werden unter https://github.com/XPixelGroup/RethinkVSRAlignment veröffentlicht.