HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur multimodal hiérarchique pour résumer des vidéos

Bin Zhao Maoguo Gong Xuelong Li

Résumé

Bien que la synthèse vidéo ait connu un succès considérable grâce aux Réseaux de Neurones Récurrents (RNN), les méthodes basées sur les RNN négligent les dépendances globales et les relations à plusieurs sauts entre les images d'une vidéo, ce qui limite leurs performances. Le Transformer est un modèle efficace pour résoudre ce problème et dépasse les méthodes basées sur les RNN dans plusieurs tâches de modélisation séquentielle, telles que la traduction automatique, la légendage vidéo, \emph{etc}. Inspirés par le grand succès des Transformers et par la structure naturelle de la vidéo (image-scène-vidéo), un Transformer hiérarchique a été développé pour la synthèse vidéo. Ce modèle est capable de capturer les dépendances entre les images et les scènes, et de résumer la vidéo en exploitant l'information scénique formée par ces scènes. De plus, nous soutenons que tant l'information audio que visuelle est essentielle pour la tâche de synthèse vidéo. Pour intégrer ces deux types d'informations, elles sont encodées selon un schéma à double flux, et un mécanisme de fusion multimodale est développé sur la base du Transformer hiérarchique. Dans cet article, la méthode proposée est désignée sous le nom de Transformer Hiérarchique Multimodal (HMT). Pratiquement, des expériences étendues montrent que l'HMT dépasse la plupart des méthodes traditionnelles, basées sur les RNN et basées sur l'attention pour la synthèse vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur multimodal hiérarchique pour résumer des vidéos | Articles | HyperAI