Z-Order rekurrente neuronale Netze für die Videovorhersage
Wir präsentieren ein Z-Order RNN (Znet) zur Vorhersage zukünftiger Videobilder basierend auf historischen Beobachtungen. Es gibt zwei zentrale Beiträge, jeweils aus deterministischer und stochastischer Modellierungsperspektive. Erstens stellen wir eine neue RNN-Architektur zur Modellierung deterministischer Dynamiken vor, die die versteckten Zustände entlang einer Z-Ordnungskurve aktualisiert, um die Konsistenz der Merkmale spiegelbildlich angeordneter Schichten zu verbessern. Zweitens führen wir einen adversarialen Trainingsansatz für ein zweistromiges Znet zur Modellierung stochastischer Variationen ein, wodurch der Znet-Predictor gezwungen wird, das Verhalten des Znet-Probes nachzuahmen. Diese zweistromige Architektur ermöglicht es, den adversarialen Trainingsprozess im Merkmalsraum anstelle des Bildraums durchzuführen. Unser Modell erreicht die bisher beste Vorhersagegenauigkeit auf zwei Videodatenbanken.