HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction de la Salience Vidéo à l'Aide d'un Réseau d'Alignement Spatio-Temporel Amélioré

Jin Chen Huihui Song Kaihua Zhang* Bo Liu Qingshan Liu

Résumé

En raison de divers mouvements à travers différents cadres, il est extrêmement difficile d'apprendre une représentation spatio-temporelle efficace pour une prédiction précise de la salience vidéo (VSP). Pour résoudre ce problème, nous développons un réseau d'alignement des caractéristiques spatio-temporelles adapté spécifiquement à la VSP, qui comprend principalement deux sous-réseaux clés : un réseau d'alignement convolutif déformable multi-échelle (MDAN) et un réseau de mémoire à court et long terme convolutif bidirectionnel (Bi-ConvLSTM). Le MDAN apprend à aligner les caractéristiques des cadres voisins sur le cadre de référence de manière grossière à fine, ce qui permet de traiter efficacement divers mouvements. Plus précisément, le MDAN possède une structure hiérarchique pyramidale des caractéristiques qui utilise d'abord la convolution déformable (Dconv) pour aligner les caractéristiques de faible résolution entre les cadres, puis agrège ces caractéristiques alignées pour aligner les caractéristiques de haute résolution, améliorant progressivement les caractéristiques du haut vers le bas. La sortie du MDAN est ensuite transmise au Bi-ConvLSTM pour une amélioration supplémentaire, ce dernier capturant les informations temporelles utiles sur le long terme dans les directions temporelles avant et arrière afin de guider efficacement la prédiction du déplacement d'orientation de l'attention sous des transformations complexes de scène. Enfin, les caractéristiques améliorées sont décodées pour générer la carte de salience prédite. Le modèle proposé est formé en bout-à-bout sans aucun traitement postérieur complexe. Des évaluations approfondies sur quatre jeux de données基准数据集 (benchmark datasets) de VSP montrent que la méthode proposée offre des performances favorables par rapport aux méthodes d'avant-garde. Les codes sources et tous les résultats seront rendus disponibles.注:在翻译中,“基准数据集”被翻译为“jeux de données benchmark”,并在括号中标注了原文以确保信息完整。


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp