HyperAIHyperAI
il y a 9 jours

Apprentissage précis de points clés sur grille pour une prédiction vidéo efficace

Xiaojie Gao, Yueming Jin, Qi Dou, Chi-Wing Fu, Pheng-Ann Heng
Apprentissage précis de points clés sur grille pour une prédiction vidéo efficace
Résumé

Les méthodes de prédiction vidéo consomment généralement des ressources informatiques importantes lors de l'entraînement et du déploiement. Parmi celles-ci, les approches basées sur les points clés montrent des améliorations prometteuses en efficacité en simplifiant la prédiction dense d'images en une prédiction légère de points clés. Toutefois, les positions des points clés sont souvent modélisées uniquement comme des coordonnées continues, ce qui rend l'apprentissage sensible aux perturbations causées par des déviations sémantiquement insignifiantes dans les vidéos, entraînant ainsi une instabilité d'apprentissage et une modélisation imprecise des points clés. Dans cet article, nous proposons un nouveau cadre d'apprentissage des points clés sur grille, visant à obtenir une représentation intermédiaire robuste et explicite des points clés pour une prédiction vidéo à long terme efficace. Nous présentons deux contributions techniques majeures. Premièrement, nous détectons les points clés en sautant entre des emplacements candidats dans un espace de grille construit, et formulons une perte de condensation afin d’encourager l’apparition de points clés significatifs dotés d’une forte capacité représentative. Deuxièmement, nous introduisons une carte binaire 2D pour représenter les points clés détectés sur grille, puis proposons une propagation des positions des points clés avec un caractère stochastique en sélectionnant des éléments dans l’espace de grille discret, ce qui permet de préserver la structure spatiale des points clés sur un horizon à long terme, améliorant ainsi la génération de cadres futurs. Des expériences étendues montrent que notre méthode surpasser les méthodes de prédiction vidéo stochastiques de pointe tout en économisant plus de 98 % des ressources informatiques. Nous validons également notre approche sur un jeu de données de chirurgie assistée par robot, obtenant des résultats prometteurs. Le code source est disponible à l’adresse suivante : https://github.com/xjgaocs/Grid-Keypoint-Learning.