HyperAIHyperAI
vor 8 Tagen

Untersuchung der raumzeitlichen Multi-Frequenz-Analyse für hochauflösende und zeitkonsistente Video-Vorhersage

Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li
Untersuchung der raumzeitlichen Multi-Frequenz-Analyse für hochauflösende und zeitkonsistente Video-Vorhersage
Abstract

Die Videovorhersage ist eine pixelweise dichte Vorhersageaufgabe, bei der zukünftige Frames auf Basis vergangener Frames abgeleitet werden. Fehlende optische Details und Bewegungsunschärfe bleiben zwei zentrale Probleme aktueller Vorhersagemodelle, die zu Bildverzerrungen und zeitlicher Inkonsistenz führen. In diesem Artikel weisen wir auf die Notwendigkeit hin, eine mehrfrequenzbasierte Analyse zur Bewältigung dieser beiden Probleme zu erforschen. Inspiriert durch die Frequenzband-Zerlegungseigenschaft des menschlichen Visuellen Systems (HVS) stellen wir ein Videovorhersage-Netzwerk auf Basis einer mehrstufigen Wellenlet-Analyse vor, das räumliche und zeitliche Informationen einheitlich verarbeitet. Konkret zerlegt die mehrstufige räumliche diskrete Wavelet-Transformation jeden Videoframe in anisotrope Unterbänder mit mehreren Frequenzen, wodurch strukturelle Informationen angereichert und feine Details erhalten werden. Gleichzeitig ermöglicht die mehrstufige zeitliche diskrete Wavelet-Transformation, die entlang der Zeitachse operiert, die Zerlegung der Frame-Sequenz in Unterbandgruppen unterschiedlicher Frequenzen, um präzise multi-frequenzbasierte Bewegungen unter konstanter Bildrate zu erfassen. Umfassende Experimente auf diversen Datensätzen zeigen, dass unser Modell im Vergleich zu aktuellen state-of-the-art-Verfahren erhebliche Verbesserungen hinsichtlich Fidelität und zeitlicher Konsistenz erzielt.

Untersuchung der raumzeitlichen Multi-Frequenz-Analyse für hochauflösende und zeitkonsistente Video-Vorhersage | Neueste Forschungsarbeiten | HyperAI