MSPred : Prédiction vidéo à plusieurs échelles spatio-temporelles avec des réseaux récurrents hiérarchiques

Les systèmes autonomes doivent non seulement comprendre leur environnement actuel, mais aussi être capables de prédire des actions futures conditionnelles aux états passés, par exemple à partir de séquences vidéo capturées. Toutefois, les modèles existants se concentrent principalement sur la prédiction de cadres vidéo futurs sur de courtes durées, ce qui limite leur utilité pour la planification d’actions à long terme. Nous proposons MSPred (Multi-Scale Hierarchical Prediction), un nouveau modèle de prédiction vidéo capable de prévoir simultanément des scénarios futurs possibles à différentes échelles spatio-temporelles et à divers niveaux de granularité. En combinant un sous-échantillonnage spatial et temporel, MSPred prédit efficacement des représentations abstraites — telles que les poses humaines ou les positions — sur de longues durées, tout en maintenant des performances compétitives pour la prédiction de cadres vidéo. Dans nos expériences, nous démontrons que MSPred prédit avec précision à la fois des cadres vidéo futurs et des représentations de haut niveau (par exemple, des points clés ou des sémantiques) sur des jeux de données de tri de pièces (bin-picking) et de reconnaissance d’actions, tout en surpassant de manière cohérente les approches courantes de prédiction de cadres futurs. En outre, nous analysons les différents modules et choix architecturaux au sein de MSPred, validant expérimentalement que la combinaison de caractéristiques à différentes granularités spatiales et temporelles conduit à une performance supérieure. Le code et les modèles permettant de reproduire nos expériences sont disponibles à l’adresse suivante : https://github.com/AIS-Bonn/MSPred.