HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Résumé de vidéos en utilisant une attention concentrée et en tenant compte de l'unicité et de la diversité des cadres vidéo

{Ioannis Patras Vasileios Mezaris Georgios Balaouras Evlampios Apostolidis}

Résumé de vidéos en utilisant une attention concentrée et en tenant compte de l'unicité et de la diversité des cadres vidéo

Résumé

Dans ce travail, nous présentons une nouvelle méthode pour la synthèse vidéo non supervisée. Pour surmonter les limitations des approches existantes de synthèse vidéo non supervisée, notamment la stabilité instable de l'entraînement des architectures Générateur-Discriminateur, l'utilisation de réseaux récurrents (RNN) pour modéliser les dépendances à longue portée entre les trames vidéo, ainsi que la difficulté à paralléliser l'entraînement des architectures basées sur les RNN, la méthode proposée repose exclusivement sur un mécanisme d'attention auto-attentionnelle afin d'estimer l'importance des trames vidéo. Contrairement à une modélisation simple des dépendances entre trames basée sur une attention globale, notre méthode intègre un mécanisme d'attention concentrée capable de se focaliser sur des blocs non chevauchants situés sur la diagonale principale de la matrice d'attention, tout en enrichissant l'information existante grâce à l'extraction et à l'exploitation de connaissances relatives à l'unicité et à la diversité des trames associées. Ainsi, notre méthode permet d'obtenir des estimations plus précises de la signification des différentes parties de la vidéo, tout en réduisant de manière drastique le nombre de paramètres à apprendre. Des évaluations expérimentales menées sur deux jeux de données standardisées (SumMe et TVSum) montrent la compétitivité de la méthode proposée par rapport aux approches les plus avancées de synthèse non supervisée, et démontrent sa capacité à produire des résumés vidéo très proches des préférences humaines. Une étude d'ablation portant sur les composants introduits — à savoir l'utilisation conjointe de l'attention concentrée et des estimations basées sur l'attention pour l'unicité et la diversité des trames — met en évidence leur contribution respective à la performance globale de la synthèse.

Benchmarks

BenchmarkMéthodologieMétriques
unsupervised-video-summarization-on-summeCA-SUM
F1-score: 51.1
Parameters (M): 5.25
training time (s): 24

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Résumé de vidéos en utilisant une attention concentrée et en tenant compte de l'unicité et de la diversité des cadres vidéo | Articles de recherche | HyperAI