Réseau en pyramide temporelle pour la prédiction de trajectoire de piéton avec une supervision multi-niveaux

La prédiction du comportement du mouvement humain dans une foule est essentielle pour de nombreuses applications, allant de la navigation naturelle des véhicules autonomes aux systèmes intelligents de sécurité par surveillance vidéo. Tous les travaux antérieurs modélisent et prédirent la trajectoire à une seule résolution, ce qui s'avère assez inefficace et difficile pour exploiter simultanément les informations à longue portée (par exemple, la destination de la trajectoire) et les informations à courte portée (par exemple, la direction et la vitesse de marche à un instant donné) du comportement de déplacement. Dans cet article, nous proposons un réseau hiérarchique à pyramide temporelle pour la prédiction des trajectoires de piétons, basé sur une modulation par compression et une modulation par dilatation. Notre cadre hiérarchique construit une pyramide de caractéristiques avec une information temporelle de plus en plus riche du haut vers le bas, permettant ainsi de mieux capturer le comportement de mouvement à diverses temporalités. En outre, nous introduisons une stratégie de fusion de grossier à fin avec une supervision multiple. En fusionnant progressivement les caractéristiques grossières du contexte global en haut vers les caractéristiques fines du contexte local riche en bas, notre méthode exploite pleinement à la fois les informations à longue et à courte portée de la trajectoire. Les résultats expérimentaux sur plusieurs benchmarks démontrent l’efficacité supérieure de notre approche.