Faltungstensorzug-LSTM für raumzeitliche Lernverfahren

Die Analyse von raumzeitlichen Daten besitzt zahlreiche Anwendungen, darunter die Analyse menschlichen Verhaltens, Objektfolgung, Videokompression und Physik-Simulation. Dennoch erzielen bestehende Methoden bei anspruchsvollen Videotaufgaben wie der Langzeitvorhersage weiterhin nur begrenzte Ergebnisse. Dies liegt daran, dass solche Aufgaben eine effiziente Lernung langfristiger raumzeitlicher Korrelationen in Videosequenzen erfordern. In diesem Artikel stellen wir ein hochordentliches konvolutionales LSTM-Modell vor, das diese Korrelationen effizient erlernen sowie eine kompakte Darstellung der Vergangenheit ermöglicht. Dies wird durch ein neuartiges Tensor-Train-Modul erreicht, das Vorhersagen durch Kombination konvolutionaler Merkmale über die Zeit ermöglicht. Um die Durchführbarkeit hinsichtlich Rechen- und Speicheranforderungen sicherzustellen, schlagen wir eine neuartige konvolutionale Tensor-Train-Zerlegung des hochordentlichen Modells vor. Diese Zerlegung reduziert die Modellkomplexität, indem eine Folge von konvolutionalen Kernen gemeinsam als niedrigrangige Tensor-Train-Faktorisierung approximiert wird. Als Ergebnis übertrifft unser Modell bestehende Ansätze bei weitem, benötigt jedoch lediglich einen Bruchteil der Parameter – auch im Vergleich zu Basismodellen. Unsere Ergebnisse erreichen einen Stand der Technik (state-of-the-art) auf einer Vielzahl von Anwendungen und Datensätzen, darunter die Mehrschritt-Videovorhersage auf den Moving-MNIST-2- und KTH-Aktionsdatensätzen sowie die frühe Aktivitätserkennung auf dem Something-Something V2-Datensatz.