HyperAIHyperAI
vor 9 Tagen

MAU: Eine bewegungsbeobachtende Einheit für die Videovorhersage und darüber hinaus

{Wen Gao, Xiang Xinguang, Yan Ye, Siwei Ma, Shanshe Wang, Xinfeng Zhang, Zheng Chang}
MAU: Eine bewegungsbeobachtende Einheit für die Videovorhersage und darüber hinaus
Abstract

Die präzise Vorhersage von Inter-Frame-Bewegungsinformationen spielt eine zentrale Rolle bei Aufgaben der Videovorhersage. In diesem Artikel stellen wir eine Motion-Aware Unit (MAU) vor, die zuverlässige Inter-Frame-Bewegungsinformationen durch Vergrößerung des zeitlichen Empfindlichkeitsfeldes der prädiktiven Einheiten erfasst. Die MAU besteht aus zwei Modulen: dem Aufmerksamkeitsmodul und dem Fusionsmodul. Das Aufmerksamkeitsmodul zielt darauf ab, eine Aufmerksamkeitskarte auf Basis der Korrelationen zwischen dem aktuellen räumlichen Zustand und den historischen räumlichen Zuständen zu lernen. Auf Basis der gelernten Aufmerksamkeitskarte werden die historischen zeitlichen Zustände zu einer erweiterten Bewegungsinformation (Augmented Motion Information, AMI) aggregiert. Auf diese Weise kann die prädiktive Einheit mehr zeitliche Dynamik aus einem erweiterten Empfindlichkeitsfeld wahrnehmen. Anschließend wird das Fusionsmodul eingesetzt, um die erweiterte Bewegungsinformation (AMI) und die aktuelle Erscheinungsinfo (aktueller räumlicher Zustand) weiterhin zur finalen vorhergesagten Frame zu aggregieren. Der Rechenaufwand der MAU ist vergleichsweise gering, und die vorgeschlagene Einheit lässt sich problemlos in andere prädiktive Modelle integrieren. Darüber hinaus wird ein Informationswiederherstellungsschema in Encoder und Decoder integriert, um die visuellen Details der Vorhersagen zu bewahren. Wir evaluieren die MAU sowohl auf Aufgaben der Videovorhersage als auch der frühen Aktionserkennung. Experimentelle Ergebnisse zeigen, dass die MAU sowohl auf diesen beiden Aufgaben die derzeit besten Methoden übertrifft.