HyperAIHyperAI
vor 17 Tagen

Extraktion von Bewegung und Erscheinung mittels Inter-Frame-Attention für eine effiziente Videoframe-Interpolation

Guozhen Zhang, Yuhan Zhu, Haonan Wang, Youxin Chen, Gangshan Wu, Limin Wang
Extraktion von Bewegung und Erscheinung mittels Inter-Frame-Attention für eine effiziente Videoframe-Interpolation
Abstract

Die effektive Extraktion von Bewegungs- und Erscheinungsinformationen zwischen Frames ist entscheidend für die Video-Frame-Interpolation (VFI). Bisherige Ansätze extrahieren beide Informationsarten entweder gemischt oder nutzen separate Module für jede Informationsart, was zu einer unscharfen Repräsentation und geringer Effizienz führt. In diesem Paper stellen wir ein neuartiges Modul vor, das Bewegungs- und Erscheinungsinformationen explizit über eine einheitliche Operation extrahiert. Konkret überdenken wir den Informationsfluss im inter-frame-Attention-Mechanismus und nutzen die Aufmerksamkeitskarte erneut sowohl zur Verbesserung der Erscheinungsmerkmale als auch zur Extraktion von Bewegungsinformationen. Darüber hinaus lässt sich unser vorgeschlagenes Modul nahtlos in eine hybride Architektur aus CNN und Transformer integrieren, um eine effiziente VFI zu ermöglichen. Dieser hybride Pipeline reduziert die berechnungsaufwendige Natur des inter-frame-Attention und bewahrt gleichzeitig detaillierte, niedrigstufige Strukturinformationen. Experimentelle Ergebnisse zeigen, dass unsere Methode sowohl bei fester als auch bei beliebiger Zeitintervall-Interpolation auf verschiedenen Datensätzen die derzeit beste Leistung erzielt. Gleichzeitig weist unser Ansatz im Vergleich zu Modellen mit vergleichbarer Leistung eine geringere Rechenlast auf. Der Quellcode und die Modelle sind unter https://github.com/MCG-NJU/EMA-VFI verfügbar.

Extraktion von Bewegung und Erscheinung mittels Inter-Frame-Attention für eine effiziente Videoframe-Interpolation | Neueste Forschungsarbeiten | HyperAI