Ein einfacher Baseline für die Video-Restoration mit gruppiertem räumlich-zeitlichem Shift

Video-Restoration, das darauf abzielt, aus verminderten Videos klare Bilder wiederherzustellen, besitzt zahlreiche wichtige Anwendungen. Der Schlüssel zur Video-Restoration liegt in der Nutzung von Inter-Frame-Informationen. Herkömmliche tiefen Lernmethoden stützen sich jedoch häufig auf komplexe Netzwerkarchitekturen wie die Schätzung von Optischen Flüssen, deformable Convolution und cross-frame Selbst-Attention-Schichten, was zu hohen Rechenkosten führt. In dieser Studie präsentieren wir einen einfachen, jedoch effektiven Ansatz für die Video-Restoration. Unser Verfahren basiert auf einer gruppierten räumlich-zeitlichen Verschiebung (grouped spatial-temporal shift), einer leichten und unkomplizierten Technik, die implizit Inter-Frame-Entsprechungen für die Mehrbildaggregation erfassen kann. Durch die Einführung der gruppierten räumlichen Verschiebung erzielen wir erweiterte effektive Empfangsfelder. In Kombination mit grundlegenden 2D-Convolutionen kann dieses einfache Framework Inter-Frame-Informationen effizient aggregieren. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl bei der Video-Entschärfung als auch bei der Video-Rauschunterdrückung die bisher beste Methode übertrifft, dabei jedoch weniger als ein Viertel der Rechenkosten verbraucht. Diese Ergebnisse belegen das Potenzial unseres Ansatzes, die Rechenkosten signifikant zu reduzieren, ohne die Qualität der Ergebnisse zu beeinträchtigen. Der Quellcode ist verfügbar unter: https://github.com/dasongli1/Shift-Net.