HyperAIHyperAI
il y a 2 mois

Résumé progressif de vidéos par apprentissage auto-supervisé multimodal

Li Haopeng; Ke Qiuhong; Gong Mingming; Tom Drummond
Résumé progressif de vidéos par apprentissage auto-supervisé multimodal
Résumé

Les méthodes modernes de résumé vidéo s'appuient sur des réseaux neuronaux profonds qui nécessitent une grande quantité de données annotées pour l'entraînement. Cependant, les jeux de données existants pour le résumé vidéo sont à petite échelle, ce qui facilite le surapprentissage des modèles profonds. Étant donné que l'annotation de jeux de données à grande échelle est chronophage, nous proposons un cadre d'apprentissage auto-supervisé multimodal pour obtenir des représentations sémantiques des vidéos, ce qui bénéficie à la tâche de résumé vidéo. Plus précisément, l'apprentissage auto-supervisé est réalisé en explorant la cohérence sémantique entre les vidéos et le texte à la fois dans une perspective grossière et fine, ainsi qu'en restaurant les images masquées dans les vidéos. Le cadre multimodal est entraîné sur un nouveau jeu de données composé de paires vidéo-texte. De plus, nous introduisons une méthode de résumé vidéo progressive, où le contenu important d'une vidéo est identifié progressivement afin de générer des résumés meilleurs. Des expériences approfondies ont prouvé l'efficacité et la supériorité de notre méthode en termes de coefficients de corrélation par rang et de F-mesure.

Résumé progressif de vidéos par apprentissage auto-supervisé multimodal | Articles de recherche récents | HyperAI