HyperAIHyperAI
vor 9 Tagen

MSPred: Video-Vorhersage auf mehreren räumlich-zeitlichen Skalen mit hierarchischen rekurrenten Netzwerken

Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke
MSPred: Video-Vorhersage auf mehreren räumlich-zeitlichen Skalen mit hierarchischen rekurrenten Netzwerken
Abstract

Autonome Systeme müssen nicht nur ihre aktuelle Umgebung verstehen, sondern auch in der Lage sein, zukünftige Aktionen bedingt auf vergangene Zustände vorherzusagen, beispielsweise basierend auf aufgezeichneten Kamerabildern. Bestehende Modelle konzentrieren sich jedoch hauptsächlich auf die Vorhersage zukünftiger Videobilder für kurze Zeithorizonte und sind daher für die langfristige Aktionsplanung von begrenztem Nutzen. Wir stellen MSPred (Multi-Scale Hierarchical Prediction), ein neuartiges Videovorhersagemodell, vor, das in der Lage ist, gleichzeitig mögliche zukünftige Ergebnisse unterschiedlicher Granularität auf verschiedenen räumlich-zeitlichen Skalen vorherzusagen. Durch die Kombination von räumlicher und zeitlicher Unteraufteilung kann MSPred effizient abstrakte Darstellungen wie menschliche Körperhaltungen oder Positionen über lange Zeithorizonte vorhersagen, während es gleichzeitig eine konkurrenzfähige Leistung bei der Vorhersage von Videobildern beibehält. In unseren Experimenten zeigen wir, dass MSPred sowohl zukünftige Videobilder als auch hochlevelige Darstellungen (z. B. Gelenkpunkte oder Semantik) auf Datensätzen für Bin-Picking und Aktionserkennung genau vorhersagt und dabei konsistent die gängigen Ansätze für die Vorhersage zukünftiger Bilder übertrifft. Darüber hinaus führen wir eine Ablation verschiedener Module und Designentscheidungen in MSPred durch und bestätigen experimentell, dass die Kombination von Merkmalen unterschiedlicher räumlicher und zeitlicher Granularität zu einer überlegenen Leistung führt. Der Quellcode und die Modelle zur Reproduktion unserer Experimente sind unter https://github.com/AIS-Bonn/MSPred verfügbar.

MSPred: Video-Vorhersage auf mehreren räumlich-zeitlichen Skalen mit hierarchischen rekurrenten Netzwerken | Neueste Forschungsarbeiten | HyperAI