HyperAIHyperAI
il y a 2 mois

Modélisation conjointe vidéo basée sur le Transformers hiérarchique pour la co-résumé

Li Haopeng; Ke Qiuhong; Gong Mingming; Zhang Rui
Modélisation conjointe vidéo basée sur le Transformers hiérarchique pour la co-résumé
Résumé

La synthèse vidéo vise à générer automatiquement un résumé (storyboard ou vidéo condensée) d'une vidéo, ce qui facilite la recherche et la navigation à grande échelle dans les vidéos. La plupart des méthodes existantes effectuent la synthèse vidéo sur des vidéos individuelles, négligeant ainsi les corrélations entre les vidéos similaires. Ces corrélations sont cependant également informatives pour la compréhension et la synthèse des vidéos. Pour remédier à cette limitation, nous proposons le modèle de codage conjoint vidéo basé sur un Transformers hiérarchique (VJMHT) pour la co-synthèse, qui prend en compte les dépendances sémantiques entre les vidéos. Plus précisément, VJMHT comprend deux couches de Transformers : la première couche extrait une représentation sémantique des plans individuels des vidéos similaires, tandis que la deuxième couche réalise un codage conjoint au niveau des plans pour agrégater l'information sémantique inter-vidéo. Par ce biais, des motifs de haut niveau complets inter-vidéo sont explicitement modélisés et appris pour la synthèse des vidéos individuelles. De plus, une reconstruction de représentation vidéo basée sur les Transformers est introduite pour maximiser la similarité de haut niveau entre le résumé et la vidéo originale. Des expériences approfondies sont menées pour vérifier l'efficacité des modules proposés et l'excellence du VJMHT en termes de F-mesure et d'évaluation par classement.

Modélisation conjointe vidéo basée sur le Transformers hiérarchique pour la co-résumé | Articles de recherche récents | HyperAI