ST-MFNet: Ein räumlich-zeitliches Multi-Flow-Netzwerk für Frame-Interpolation

Video Frame Interpolation (VFI) ist derzeit ein sehr aktives Forschungsthema mit Anwendungen in der Computer Vision, der Post-Produktion und der Videokodierung. VFI kann äußerst herausfordernd sein, insbesondere in Sequenzen mit großen Bewegungen, Verdeckungen oder dynamischen Texturen, bei denen bestehende Ansätze nicht zu einer wahrnehmungsrobusten Interpolationsleistung führen können. In diesem Kontext präsentieren wir eine neuartige, auf tiefen Lernverfahren basierende VFI-Methode namens ST-MFNet, die auf einer Spatio-Temporalen Multi-Flow-Architektur beruht. ST-MFNet verwendet einen neuen Multi-Scale-Multi-Flow-Predictor, um viele-zu-eins-Interpolationsflüsse zu schätzen, die mit herkömmlichen ein-zu-eins-Optischen Flüssen kombiniert werden, um sowohl große als auch komplexe Bewegungen präzise zu erfassen. Um die Interpolationsleistung für verschiedene Texturen zu verbessern, wird zudem ein 3D-CNN eingesetzt, um die Inhaltsdynamik über einen erweiterten zeitlichen Fenster zu modellieren. Zudem wurde ST-MFNet innerhalb eines ST-GAN-Rahmens trainiert, der ursprünglich für die Textursynthese entwickelt wurde, mit dem Ziel, die wahrnehmungsbezogene Qualität der Interpolation weiter zu steigern. Unser Ansatz wurde umfassend evaluiert – im Vergleich zu vierzehn state-of-the-art-VFI-Algorithmen – und zeigt klar, dass ST-MFNet diese Benchmarkverfahren auf vielfältigen und repräsentativen Testdatensätzen konsistent übertrifft, wobei bei Fällen mit großen Bewegungen und dynamischen Texturen sogar Gewinne von bis zu 1,09 dB im PSNR erzielt werden. Projektseite: https://danielism97.github.io/ST-MFNet.