HyperAIHyperAI

Command Palette

Search for a command to run...

Encodage-décodage hiérarchique de graphe de scène pour la rédaction de paragraphes d'images

and Jianfei Cai Hanwang Zhang Chongyang Gao Xu Yang

Résumé

Lorsque nous, humains, décrivons une image à l’aide d’un long paragraphe, nous composons généralement implicitement un « scénario mental » que nous suivons ensuite pour produire le texte. Inspirés par ce processus, nous conférons au modèle moderne de génération de paragraphe à partir d’image basé sur l’architecture encodeur-décodeur la capacité d’imiter cette démarche en proposant un modèle Hiérarchique de Graphe de Scène Encodeur-Décodeur (HSGED), capable de générer des paragraphes cohérents et distinctifs. Plus précisément, nous utilisons le graphe de scène de l’image comme « scénario » afin d’intégrer des connaissances sémantiques riches, et surtout des contraintes hiérarchiques, dans le modèle. En particulier, nous concevons un réseau de neurones à récurrence basé sur le graphe de scène de phrase (SSG-RNN) pour générer des sujets au niveau des sous-graphes, lesquels contraindront ensuite un autre réseau, le SSG-RNN pour les mots (WSG-RNN), à produire les phrases correspondantes. Nous introduisons une attention non redondante dans le SSG-RNN afin d’améliorer la capacité à extraire des sujets à partir de sous-graphes rarement décrits, et une attention héritée dans le WSG-RNN pour générer des phrases plus ancrées dans le contenu visuel à partir des sujets abstraits ainsi extraits. Ces deux mécanismes contribuent à produire des paragraphes plus distinctifs. Un nouveau critère de perte efficace au niveau de la phrase est également proposé afin d’encourager la séquence des phrases générées à s’approcher de celle des paragraphes de référence. Nous validons HSGED sur le jeu de données Stanford Image Paragraph, et démontrons qu’il atteint non seulement un nouveau record mondial avec un score de 36,02 en CIDEr-D, mais qu’il génère également des paragraphes plus cohérents et plus distinctifs selon plusieurs métriques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp