XVFI: eXtreme Video Frame Interpolation XVFI: extremale Video-Bildinterpolation

In dieser Arbeit stellen wir der Forschungsgemeinschaft einen Datensatz (X4K1000FPS) von 4K-Videos mit 1000 fps und extremen Bewegungen für die Video-Bilderrinterpolation (VFI) vor und schlagen ein extremes VFI-Netzwerk vor, das XVFI-Net genannt wird. Dieses Netzwerk ist speziell darauf ausgelegt, die VFI für 4K-Videos mit großen Bewegungen zu bearbeiten. Das XVFI-Net basiert auf einer rekursiven mehrskaligen geteilten Struktur, die aus zwei aufeinanderfolgenden Modulen besteht: dem Modul zur bidirektionalen optischen Flussanalyse zwischen den beiden Eingabebildern (BiOF-I) und dem Modul zur bidirektionalen optischen Flussanalyse von den Zielbildern zu den Eingabebildern (BiOF-T). Die optischen Flüsse werden durch eine im BiOF-T-Modul vorgeschlagene komplementäre Flussumkehr (CFR) stabil angenähert. Während der Inferenz kann das BiOF-I-Modul bei jeder Skala der Eingabebilder beginnen, während das BiOF-T-Modul nur bei der ursprünglichen Eingabeskala operiert. Dies ermöglicht eine Beschleunigung der Inferenz, während gleichzeitig eine hohe Genauigkeit der VFI-Leistung gewährleistet wird. Ausführliche experimentelle Ergebnisse zeigen, dass unser XVFI-Net in der Lage ist, die wesentlichen Informationen von Objekten mit extrem großer Bewegung und komplexen Texturen erfolgreich zu erfassen, während herkömmliche state-of-the-art Methoden hierbei schwache Leistungen zeigen. Darüber hinaus erweist sich unser XVFI-Net-Framework auch bei früheren Benchmark-Datensätzen mit geringerer Auflösung als vergleichbar leistungsfähig, was die Robustheit unseres Algorithmus unterstreicht. Alle Quellcodes, vortrainierte Modelle und der vorgeschlagene X4K1000FPS-Datensatz sind öffentlich verfügbar unter https://github.com/JihyongOh/XVFI.