HyperAIHyperAI
il y a 2 mois

Prédiction de la Salience Vidéo à l'Aide d'un Réseau d'Alignement Spatio-Temporel Amélioré

Jin Chen; Huihui Song; Kaihua Zhang; Bo Liu; Qingshan Liu
Prédiction de la Salience Vidéo à l'Aide d'un Réseau d'Alignement Spatio-Temporel Amélioré
Résumé

En raison de divers mouvements à travers différents cadres, il est extrêmement difficile d'apprendre une représentation spatio-temporelle efficace pour une prédiction précise de la salience vidéo (VSP). Pour résoudre ce problème, nous développons un réseau d'alignement des caractéristiques spatio-temporelles adapté spécifiquement à la VSP, qui comprend principalement deux sous-réseaux clés : un réseau d'alignement convolutif déformable multi-échelle (MDAN) et un réseau de mémoire à court et long terme convolutif bidirectionnel (Bi-ConvLSTM). Le MDAN apprend à aligner les caractéristiques des cadres voisins sur le cadre de référence de manière grossière à fine, ce qui permet de traiter efficacement divers mouvements. Plus précisément, le MDAN possède une structure hiérarchique pyramidale des caractéristiques qui utilise d'abord la convolution déformable (Dconv) pour aligner les caractéristiques de faible résolution entre les cadres, puis agrège ces caractéristiques alignées pour aligner les caractéristiques de haute résolution, améliorant progressivement les caractéristiques du haut vers le bas. La sortie du MDAN est ensuite transmise au Bi-ConvLSTM pour une amélioration supplémentaire, ce dernier capturant les informations temporelles utiles sur le long terme dans les directions temporelles avant et arrière afin de guider efficacement la prédiction du déplacement d'orientation de l'attention sous des transformations complexes de scène. Enfin, les caractéristiques améliorées sont décodées pour générer la carte de salience prédite. Le modèle proposé est formé en bout-à-bout sans aucun traitement postérieur complexe. Des évaluations approfondies sur quatre jeux de données基准数据集 (benchmark datasets) de VSP montrent que la méthode proposée offre des performances favorables par rapport aux méthodes d'avant-garde. Les codes sources et tous les résultats seront rendus disponibles.注:在翻译中,“基准数据集”被翻译为“jeux de données benchmark”,并在括号中标注了原文以确保信息完整。

Prédiction de la Salience Vidéo à l'Aide d'un Réseau d'Alignement Spatio-Temporel Amélioré | Articles de recherche récents | HyperAI