HyperAIHyperAI

Command Palette

Search for a command to run...

Résumé progressif de vidéos par apprentissage auto-supervisé multimodal

Haopeng Li Qiuhong Ke Mingming Gong Tom Drummond

Résumé

Les méthodes modernes de résumé vidéo s'appuient sur des réseaux neuronaux profonds qui nécessitent une grande quantité de données annotées pour l'entraînement. Cependant, les jeux de données existants pour le résumé vidéo sont à petite échelle, ce qui facilite le surapprentissage des modèles profonds. Étant donné que l'annotation de jeux de données à grande échelle est chronophage, nous proposons un cadre d'apprentissage auto-supervisé multimodal pour obtenir des représentations sémantiques des vidéos, ce qui bénéficie à la tâche de résumé vidéo. Plus précisément, l'apprentissage auto-supervisé est réalisé en explorant la cohérence sémantique entre les vidéos et le texte à la fois dans une perspective grossière et fine, ainsi qu'en restaurant les images masquées dans les vidéos. Le cadre multimodal est entraîné sur un nouveau jeu de données composé de paires vidéo-texte. De plus, nous introduisons une méthode de résumé vidéo progressive, où le contenu important d'une vidéo est identifié progressivement afin de générer des résumés meilleurs. Des expériences approfondies ont prouvé l'efficacité et la supériorité de notre méthode en termes de coefficients de corrélation par rang et de F-mesure.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp