HyperAIHyperAI
il y a 12 jours

Dual-CNN : Un décodeur de langage convolutif pour la génération de légendes d'images de paragraphes

{Xiaojie Wang, Fangxiang Feng, Yihui Shi, Haoyun Liang, Ruifan Li}
Résumé

Résumé : La tâche de génération de légendes paragraphe pour images vise à produire un paragraphe cohérent décrivant une image donnée. Toutefois, en raison de leur capacité limitée à capturer les dépendances à long terme, les décodeurs basés sur les réseaux de neurones récurrents (RNN) ou les mémoires à court et long terme (LSTM) peinent à générer des descriptions textuelles satisfaisantes sous forme de paragraphe long. En outre, une inefficacité notable dans l’entraînement des décodeurs séquentiels est observée. Inspirés par les avantages des réseaux de neurones convolutifs (CNN), nous proposons dans cet article un décodeur Dual-CNN doté d’une mémoire à long terme et d’un calcul parallèle, capable de produire un paragraphe sémantiquement cohérent pour une image. Notre modèle Dual-CNN est évalué sur le jeu de données Stanford image-paragraph. Des expériences étendues démontrent que notre modèle atteint des résultats comparables à ceux des modèles de pointe. En outre, la diversité et la cohérence des paragraphes générés sont analysées, mettant en évidence l’efficacité supérieure de notre approche.