Video-Vorhersage durch Wiederherstellung langfristiger Bewegungskontexte mittels Lernens der Speicheralignment

Unsere Arbeit befasst sich mit langfristigen Bewegungskontextproblemen bei der Vorhersage zukünftiger Bildfolgen. Um die Zukunft präzise vorhersagen zu können, ist es notwendig, zu erkennen, zu welchem langfristigen Bewegungskontext (z. B. Gehen oder Laufen) die Eingabebewegung (z. B. Beinbewegung) gehört. Die Hauptprobleme bei der Behandlung langfristiger Bewegungskontexte sind: (i) wie man den langfristigen Bewegungskontext natürlich vorhersagt, der den Eingabesequenzen mit begrenzter Dynamik entspricht, und (ii) wie man den langfristigen Bewegungskontext bei hoher Dimensionalität (z. B. komplexen Bewegungen) vorhersagt. Um diese Herausforderungen zu bewältigen, schlagen wir eine neue bewegungskontextbewusste Videovorhersagemethode vor. Zur Lösung der Herausforderung (i) führen wir ein Langzeit-Bewegungskontext-Speichermodul (LMC-Memory) mit einem Lernansatz zur Speicheranpassung ein. Der vorgeschlagene Anpassungslernansatz ermöglicht es, langfristige Bewegungskontexte in den Speicher zu speichern und sie mit Sequenzen mit begrenzter Dynamik zu verknüpfen. Dadurch kann der langfristige Kontext aus einer eingeschränkten Eingabesequenz rekonstruiert werden. Darüber hinaus lösen wir die Herausforderung (ii) durch die Einführung einer Speicherabfragedeckung, die lokale Bewegungskontexte (d. h. niedrigdimensionale Dynamik) speichert und für jedes lokale Segment der Eingabe separat den passenden lokalen Kontext abruft. Dies verbessert die Anpassungswirkung des Speichers signifikant. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode andere anspruchsvolle RNN-basierte Ansätze übertrifft, insbesondere unter langfristigen Bedingungen. Zudem bestätigen wir die Wirksamkeit der vorgeschlagenen Netzwerkarchitekturen durch Ablationsstudien und eine Analyse der Speichermerkmale. Der Quellcode dieser Arbeit ist verfügbar.