HyperAIHyperAI

Command Palette

Search for a command to run...

Résumé de Vidéo avec des Réseaux Encodeur-Décodeur Basés sur l'Attention

Zhong Ji Kailin Xiong Yanwei Pang Xuelong Li

Résumé

Ce travail aborde le problème de la résumation supervisée des vidéos en le formulant comme un problème d'apprentissage séquence-à-séquence, où l'entrée est une séquence de trames vidéo originales et la sortie est une séquence de trames clés. Notre idée principale est d'apprendre un réseau de résumation profond avec un mécanisme d'attention pour imiter la manière dont les humains sélectionnent les trames clés. À cette fin, nous proposons un nouveau cadre de résumation vidéo nommé Réseaux encodeur-décodeur attentifs pour la résumation vidéo (AVS), dans lequel l'encodeur utilise une Mémoire à court et long terme bidirectionnelle (BiLSTM) pour coder les informations contextuelles parmi les trames vidéo d'entrée. Quant au décodeur, deux réseaux LSTM basés sur l'attention sont explorés en utilisant respectivement des fonctions objectif additives et multiplicatives. De nombreuses expériences ont été menées sur trois ensembles de données de référence pour la résumation vidéo, à savoir SumMe et TVSum. Les résultats démontrent la supériorité des approches basées sur l'AVS proposées par rapport aux approches de pointe, avec des améliorations notables allant de 0,8% à 3% sur deux ensembles de données respectivement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp