HyperAIHyperAI

Command Palette

Search for a command to run...

MART : Transformateur récurrent augmenté par la mémoire pour la rédaction de paragraphes de légendes vidéo cohérents

Jie Lei Liwei Wang Yelong Shen Dong Yu Tamara L. Berg Mohit Bansal

Résumé

La génération de descriptions multi-phrases pour des vidéos constitue l’une des tâches les plus exigeantes en matière de rédaction de légendes, en raison des exigences élevées tant en termes de pertinence visuelle que de cohérence discursive entre les phrases d’un même paragraphe. Dans cette optique, nous proposons une nouvelle approche nommée Memory-Augmented Recurrent Transformer (MART), qui enrichit l’architecture Transformer grâce à un module mémoire. Ce module mémoire extrait un état mémoire fortement résumé à partir des segments vidéo et de l’historique des phrases, afin d’améliorer la prédiction de la phrase suivante (notamment en matière de coréférence et de répétition), favorisant ainsi une génération de paragraphes plus cohérente. Des expériences étendues, des évaluations humaines et des analyses qualitatives menées sur deux jeux de données populaires, ActivityNet Captions et YouCookII, montrent que MART produit des légendes de paragraphe plus cohérentes et moins répétitives que les méthodes de référence, tout en préservant une forte pertinence par rapport aux événements vidéo d’entrée. Le code source est entièrement disponible en open-source à l’adresse suivante : https://github.com/jayleicn/recurrent-transformer


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp