HyperAIHyperAI

Command Palette

Search for a command to run...

MMT : Génération de fin d’histoire guidée par l’image avec un Transformer à mémoire multimodale

Changsheng Xu Quan Fang Shengsheng Qian Dizhan Xue

Résumé

En tant que forme spécifique de génération de récit, la génération de fin de récit guidée par une image (IgSEG) est une tâche récemment proposée visant à produire une fin de récit pour un récit multi-phrases donné, accompagné d'une image pertinente à la fin. Contrairement aux tâches existantes de captioning d’images ou de génération de fins de récit, l’IgSEG vise à générer une description factuelle conforme à la logique contextuelle du récit ainsi qu’aux concepts visuels pertinents. À ce jour, les méthodes existantes pour l’IgSEG négligent les relations entre les informations multimodales et ne fusionnent pas adéquatement les caractéristiques multimodales. Dans ce travail, nous proposons le Modèle Transformer à Mémoire Multimodale (MMT), un cadre end-to-end qui modélise et fusionne à la fois les informations contextuelles et visuelles afin de capturer efficacement les dépendances multimodales pour l’IgSEG. Premièrement, nous extrayons séparément les caractéristiques textuelles et visuelles en utilisant des encodeurs pré-entraînés à grande échelle spécifiques à chaque modalité. Deuxièmement, nous utilisons un réseau d’attention cross-modale augmenté de mémoire pour apprendre les relations entre les modalités et réaliser une fusion fine des caractéristiques. Enfin, un décodeur transformer multimodal établit une attention entre les caractéristiques multimodales afin d’apprendre les dépendances du récit et de générer des fins de récit informatives, cohérentes et plausibles. Les expérimentations montrent que les résultats d’évaluation automatique et humaine étendus indiquent une amélioration significative des performances de notre modèle MMT par rapport aux méthodes de pointe sur deux jeux de données de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMT : Génération de fin d’histoire guidée par l’image avec un Transformer à mémoire multimodale | Articles | HyperAI