HyperAIHyperAI
il y a 12 jours

Récit visuel avec une guidance sémantique hiérarchique BERT

{and Xianhui Liu, Jinjing Gu, Hanli Wang, Ruichao Fan}
Résumé

L’art du récit visuel, dont l’objectif est de générer automatiquement un paragraphe narratif à partir d’un album photo, reste particulièrement complexe en raison de la diversité et de la richesse du contenu des albums. En outre, les albums photo du domaine ouvert couvrent une large gamme de sujets, ce qui entraîne une grande variabilité en termes de vocabulaire et de styles d’expression. Dans ce travail, nous proposons un nouveau cadre d’apprentissage par transfert visuel basé sur un modèle enseignant-étudiant, accompagné d’une guidance sémantique hiérarchique BERT (HBSG), afin de relever ces défis. Le module enseignant proposé repose sur deux tâches conjointes : la génération de sujets latents au niveau des mots et la génération de phrases guidée sémantiquement. La première tâche vise à prédire le sujet latent de l’histoire. Comme aucune information de sujet réel (ground-truth) n’est disponible, un modèle BERT pré-entraîné sur les contenus visuels et des récits annotés est utilisé pour extraire ces sujets. Le vecteur de sujet ainsi obtenu est ensuite distillé vers un modèle de prédiction image-sujet spécifiquement conçu. Dans la tâche de génération de phrases guidée sémantiquement, HBSG est introduit à deux fins. Premièrement, il permet de réduire la complexité linguistique entre différents sujets : un décodeur à co-attention combinant les informations visuelles et sémantiques est conçu pour exploiter les sujets latents afin de guider la construction de modèles linguistiques spécifiques à chaque sujet. Deuxièmement, il utilise le sens des phrases comme module enseignant externe et en temps réel, fournissant ainsi une connaissance linguistique externe dynamique. Enfin, une perte auxiliaire est définie pour transformer cette connaissance linguistique en une capacité de génération de langage. Des expérimentations étendues sont menées pour démontrer l’efficacité du cadre HBSG, qui surpasse les approches les plus avancées évaluées sur le jeu de test VIST.

Récit visuel avec une guidance sémantique hiérarchique BERT | Articles de recherche récents | HyperAI