il y a 2 mois

Transformateur multimodal hiérarchique pour résumer des vidéos

Bin Zhao; Maoguo Gong; Xuelong Li

Résumé

Bien que la synthèse vidéo ait connu un succès considérable grâce aux Réseaux de Neurones Récurrents (RNN), les méthodes basées sur les RNN négligent les dépendances globales et les relations à plusieurs sauts entre les images d'une vidéo, ce qui limite leurs performances. Le Transformer est un modèle efficace pour résoudre ce problème et dépasse les méthodes basées sur les RNN dans plusieurs tâches de modélisation séquentielle, telles que la traduction automatique, la légendage vidéo, \emph{etc}. Inspirés par le grand succès des Transformers et par la structure naturelle de la vidéo (image-scène-vidéo), un Transformer hiérarchique a été développé pour la synthèse vidéo. Ce modèle est capable de capturer les dépendances entre les images et les scènes, et de résumer la vidéo en exploitant l'information scénique formée par ces scènes. De plus, nous soutenons que tant l'information audio que visuelle est essentielle pour la tâche de synthèse vidéo. Pour intégrer ces deux types d'informations, elles sont encodées selon un schéma à double flux, et un mécanisme de fusion multimodale est développé sur la base du Transformer hiérarchique. Dans cet article, la méthode proposée est désignée sous le nom de Transformer Hiérarchique Multimodal (HMT). Pratiquement, des expériences étendues montrent que l'HMT dépasse la plupart des méthodes traditionnelles, basées sur les RNN et basées sur l'attention pour la synthèse vidéo.