Unsupervised Flow-Alignierte sequenz-zu-Sequenz-Lernmethode für die Video-Restoration

Die angemessene Modellierung der Inter-Frame-Beziehungen innerhalb einer Videosequenz stellt eine wichtige, jedoch noch ungelöste Herausforderung für die Videorestitution (VR) dar. In dieser Arbeit stellen wir ein unsupervisiertes, flussausgerichtetes sequenz-zu-Sequenz-Modell (S2SVR) vor, um dieses Problem anzugehen. Auf der einen Seite wird erstmals ein sequenz-zu-Sequenz-Modell, das sich in der natürlichen Sprachverarbeitung als leistungsfähig für die Modellierung von Sequenzen erwiesen hat, für die VR eingesetzt. Die optimierte Serialisierungsmodellierung zeigt Potenzial, langreichweitige Abhängigkeiten zwischen Bildern zu erfassen. Auf der anderen Seite versehen wir das sequenz-zu-Sequenz-Modell mit einem unsupervierten Optikfluss-Schätzer, um dessen Potenzial maximal auszuschöpfen. Der Fluss-Schätzer wird mit einer von uns vorgeschlagenen unsupervierten Distillation-Verlustfunktion trainiert, die die Dateninkonsistenz und die ungenauen, verfälschten Optikflüsse früherer flussbasierter Methoden reduzieren kann. Mit zuverlässigem Optikfluss können wir genaue Korrespondenzen zwischen mehreren Bildern herstellen, die Domänenunterschiede zwischen eindimensionalen Sprachsequenzen und zweidimensionalen, nicht ausgerichteten Bildern verringern und somit das Potenzial des sequenz-zu-Sequenz-Modells verbessern. S2SVR erreicht herausragende Leistung in mehreren VR-Aufgaben, darunter Videoblur-Beseitigung, Video-Super-Resolution und Verbesserung der Qualität komprimierter Videos. Der Quellcode und die Modelle sind öffentlich unter https://github.com/linjing7/VR-Baseline verfügbar.