HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning Vidéo Dense de bout en bout avec Transformers Masqués

Luowei Zhou* Yingbo Zhou* Jason J. Corso Richard Socher Caiming Xiong†

Résumé

La légendage vidéo dense vise à générer des descriptions textuelles pour tous les événements d'une vidéo non tronquée. Cela implique à la fois la détection et la description des événements. Par conséquent, toutes les méthodes précédentes en matière de légendage vidéo dense abordent ce problème en construisant deux modèles, à savoir un modèle de proposition d'événements et un modèle de légendage, pour ces deux sous-problèmes. Les modèles sont soit entraînés séparément, soit alternativement. Cela empêche une influence directe de la description linguistique sur la proposition d'événements, ce qui est crucial pour générer des descriptions précises. Pour résoudre ce problème, nous proposons un modèle transformer intégré (end-to-end) pour le légendage vidéo dense. L'encodeur encode la vidéo en représentations appropriées. Le décodeur de proposition décode l'encodage avec différentes ancres pour former des propositions d'événements vidéo. Le décodeur de légendage utilise un réseau masquant pour restreindre son attention à l'événement proposé au-dessus des caractéristiques encodées. Ce réseau masquant convertit la proposition d'événement en un masque différentiable, garantissant ainsi la cohérence entre la proposition et le légendage pendant l'entraînement. De plus, notre modèle emploie un mécanisme d'auto-attention, permettant l'utilisation d'une structure non récurrente efficace lors de l'encodage et conduisant à des améliorations de performance. Nous démontrons l'efficacité de ce modèle intégré sur les jeux de données ActivityNet Captions et YouCookII, où nous avons respectivement obtenu des scores METEOR de 10,12 et 6,58.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp