HyperAIHyperAI

Command Palette

Search for a command to run...

Résumé Abstrait Multimodal pour les Vidéos How2

Shruti Palaskar; Jindrich Libovický; Spandana Gella; Florian Metze

Résumé

Dans cet article, nous étudions la synthèse abstraite pour des vidéos de domaine ouvert. Contrairement à la synthèse traditionnelle des actualités textuelles, l'objectif est moins de « compresser » les informations textuelles que de fournir un résumé textuel fluide des informations collectées et fusionnées à partir de différentes modalités sources, dans notre cas les vidéos et les transcriptions audio (ou texte). Nous montrons comment un modèle multi-source séquence-à-séquence avec une attention hiérarchique peut intégrer les informations provenant de différentes modalités dans une sortie cohérente, comparons divers modèles entraînés avec différentes modalités et présentons des expériences pilotes sur le corpus How2 de vidéos didactiques. Nous proposons également une nouvelle métrique d'évaluation (Content F1) pour la tâche de synthèse abstraite qui mesure l'adéquation sémantique plutôt que la fluidité des résumés, ce dernier aspect étant couvert par des métriques comme ROUGE et BLEU.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Résumé Abstrait Multimodal pour les Vidéos How2 | Articles | HyperAI