Echtzeit-Schätzung von Zwischenflüssen für die Video-Bildinterpolation

Echtzeit-Bildfolgen-Interpolation (VFI) ist in der Videobearbeitung, Mediaplayern und Anzeigegeräten äußerst nützlich. Wir stellen RIFE, einen Algorithmus zur Echtzeit-Schätzung von Zwischenflüssen für die VFI, vor. Um eine hochwertige, auf Flüssen basierende VFI-Methode zu realisieren, verwendet RIFE ein künstliches neuronales Netzwerk namens IFNet, das die Zwischenflüsse end-to-end mit erheblich höherer Geschwindigkeit schätzen kann. Ein privilegiertes Distillationsschema wurde speziell entworfen, um den Trainingsprozess von IFNet stabil zu gestalten und die Gesamtleistung zu verbessern. RIFE setzt nicht auf vortrainierte Optische-Fluss-Modelle und ermöglicht zudem die Interpolation beliebiger Zeitschritte durch Eingabe von zeitlichen Kodierungen. Experimente zeigen, dass RIFE auf mehreren öffentlichen Benchmarks die derzeit beste Leistung erzielt. Im Vergleich zu den populären Methoden SuperSlomo und DAIN ist RIFE 4 bis 27 Mal schneller und liefert zudem bessere Ergebnisse. Darüber hinaus kann RIFE dank der zeitlichen Kodierung auf breitere Anwendungsbereiche erweitert werden. Der Quellcode ist unter https://github.com/megvii-research/ECCV2022-RIFE verfügbar.