Mutuelles Unterdrückungsnetzwerk für Videovorhersage mit entkoppelten Merkmalen

Die Video-Vorhersage wird als ein schwieriges Problem betrachtet, da Videos nicht nur hochdimensionale räumliche Informationen enthalten, sondern auch komplexe zeitliche Informationen. Die Video-Vorhersage kann durch das Auffinden von Merkmalen in aktuellen Bildern und deren Nutzung zur Generierung von Annäherungen an zukünftige Bilder durchgeführt werden. Wir gehen diesem Problem durch die Trennung von räumlichen und zeitlichen Merkmalen in Videos entgegen. Wir führen ein gegenseitiges Unterdrückungsnetzwerk (Mutual Suppression Network, MSnet) ein, das auf feindliche Weise trainiert wird und anschließend räumliche Merkmale ohne Bewegungsinformationen sowie Bewegungsmerkmale ohne räumliche Informationen erzeugt. Das MSnet nutzt dann eine bewegungsgesteuerte Verbindung innerhalb einer Encoder-Decoder-Architektur, um räumliche Merkmale eines vorherigen Bildes in den Zeitpunkt eines kommenden Bildes zu transformieren. Wir zeigen, wie MSnet unter Verwendung getrennter Repräsentationen für die Video-Vorhersage eingesetzt werden kann. Zudem führen wir Experimente durch, um die Effektivität unserer Methode zur Trennung von Merkmalen zu evaluieren. Obwohl MSnet einfachere Encoder verwendet, erzielt es bessere Ergebnisse als andere aktuelle Methoden der Video-Vorhersage.