HyperAIHyperAI
vor 17 Tagen

Untersuchung der Bewegungsambiguität und -ausrichtung für hochwertige Videoframe-Interpolation

Kun Zhou, Wenbo Li, Xiaoguang Han, Jiangbo Lu
Untersuchung der Bewegungsambiguität und -ausrichtung für hochwertige Videoframe-Interpolation
Abstract

Für die Videoframe-Interpolation (VFI) stützen sich bestehende, auf Deep Learning basierende Ansätze stark auf die Ground-Truth-(GT-)Zwischenframes, wodurch die nicht eindeutige Natur der Bewegung, die aus den gegebenen benachbarten Frames hervorgeht, gelegentlich vernachlässigt wird. Als Folge neigen diese Methoden dazu, durchschnittliche Lösungen zu erzeugen, die nicht ausreichend scharf sind. Um dieses Problem zu mildern, schlagen wir vor, die Anforderung zu lockern, einen Zwischenframe so genau wie möglich an die GT anzunähern. Dazu entwickeln wir eine Textur-Konsistenz-Verlustfunktion (TCL), unter der Annahme, dass der interpolierte Inhalt ähnliche Strukturen wie seine Entsprechungen in den gegebenen Frames beibehalten sollte. Vorhersagen, die dieser Bedingung genügen, werden gefördert, auch wenn sie sich von der vorgegebenen GT unterscheiden. Ohne zusätzliche Komplexitäten ist unsere plug-and-play-TCL in der Lage, die Leistung bestehender VFI-Frameworks zu verbessern. Andererseits nutzen herkömmliche Methoden üblicherweise ein Cost-Volumen oder eine Korrelationskarte, um eine präzisere Bild-/Merkmalsverzerrung zu erreichen. Die dabei auftretende rechnerische Komplexität von O(N²) (wobei N die Anzahl der Pixel bezeichnet) macht diese Ansätze jedoch für hochauflösende Fälle unbrauchbar. In dieser Arbeit entwerfen wir ein einfaches, effizientes (O(N)) und dennoch leistungsstarkes Modul zur Kreuzskalen-Pyramiden-Ausrichtung (CSPA), bei dem Informationen auf mehreren Skalen hochgradig ausgenutzt werden. Umfangreiche Experimente bestätigen die Effizienz und Wirksamkeit des vorgeschlagenen Ansatzes.

Untersuchung der Bewegungsambiguität und -ausrichtung für hochwertige Videoframe-Interpolation | Neueste Forschungsarbeiten | HyperAI