FLAVR: Flussagnostische Video-Darstellungen für schnelle Bildinterpolation

Die meisten Methoden zur Video-Bilderrahmeninterpolation berechnen die bidirektionale optische Flussdichte zwischen benachbarten Bildern eines Videos und wenden anschließend einen geeigneten Verformungsalgorithmus an, um die Ausgabebilder zu generieren. Allerdings scheitern Ansätze, die auf der optischen Flussdichte basieren, häufig daran, Okklusionen und komplexe nichtlineare Bewegungen direkt aus dem Video zu modellieren, und führen zu zusätzlichen Engpässen, die für eine breite Anwendung ungeeignet sind. Wir begegnen diesen Einschränkungen mit FLAVR (Flexible and Lightweight Architecture for Video Restoration), einer flexiblen und effizienten Architektur, die 3D Raum-Zeit-Faltungen verwendet, um das end-to-end Lernen und Inferenz für die Interpolation von Video-Bilderrahmen zu ermöglichen. Unsere Methode lernt effizient, nichtlineare Bewegungen, komplexe Okklusionen und zeitliche Abstraktionen zu verstehen, was sich in einer verbesserten Leistung bei der Video-Bilderrahmeninterpolation niederschlägt, ohne zusätzliche Eingaben in Form von optischer Flussdichte oder Tiefenkarten zu erfordern. Dank seiner Einfachheit kann FLAVR bis zu dreimal schnellere Inferenzgeschwindigkeit als die aktuell genaueste Methode bei der Mehrbilderrahmeninterpolation erreichen, ohne dabei an Interpolationsgenauigkeit einzubüßen. Darüber hinaus bewerten wir FLAVR in einer Vielzahl herausfordernder Szenarien und zeigen konsistent überlegene qualitative und quantitative Ergebnisse im Vergleich zu früheren Methoden auf verschiedenen gängigen Benchmarks wie Vimeo-90K, UCF101, DAVIS, Adobe und GoPro. Schließlich demonstrieren wir, dass FLAVR für die Video-Bilderrahmeninterpolation als nützliche selbstüberwachte Vorabgabe für Aktionserkennung, optische Flussdichteschätzung und Bewegungsverstärkung dienen kann.