HyperAIHyperAI
vor einem Monat

Gefaltete Rekurrente Neuronale Netze für die Vorhersage zukünftiger Videos

Marc Oliu; Javier Selva; Sergio Escalera
Gefaltete Rekurrente Neuronale Netze für die Vorhersage zukünftiger Videos
Abstract

Die Zukunftsvideoprognose ist ein schlecht gestelltes Problem der Computer Vision, das in letzter Zeit viel Aufmerksamkeit erhalten hat. Die Hauptausforderungen sind die hohe Variabilität von Videoinhalten, die Fehlerfortpflanzung über die Zeit und die Unspezifizität zukünftiger Bilder: gegeben einer Sequenz vergangener Bilder gibt es eine kontinuierliche Verteilung möglicher Zukünfte. Diese Arbeit führt bijektive Gated Recurrent Units (GRUs) ein, eine doppelte Abbildung zwischen dem Eingangs- und Ausgangssignal einer GRU-Schicht. Dies ermöglicht rekurrente Autoencoder mit Zustandsfreigabe zwischen Encoder und Decoder, was die Sequenzrepräsentation schichtet und dazu beiträgt, Kapazitätsprobleme zu vermeiden. Wir zeigen, wie bei dieser Topologie nur der Encoder oder der Decoder für die Eingangscodierung und Prognose angewendet werden muss. Dies reduziert den Rechenaufwand und vermeidet das erneute Codieren der Prognosen beim Generieren einer Bildsequenz, wodurch die Fehlerfortpflanzung gemindert wird. Darüber hinaus ist es möglich, Schichten aus einem bereits trainierten Modell zu entfernen, was Einblicke in die von jeder Schicht ausgeführten Funktionen bietet und das Modell erklärbarer macht. Wir evaluieren unseren Ansatz anhand dreier Videodatensätze, übertreffen dabei die Stand der Technik-Ergebnisse bei MMNIST und UCF101 und erzielen wettbewerbsfähige Ergebnisse bei KTH mit einem Speicherverbrauch und einem Rechenaufwand von 2 bis 3 Mal weniger als der beste bewertete Ansatz.