il y a 2 mois

Auto-encodage convolutif des sujets de phrases pour la génération de paragraphes d'images

Jing Wang; Yingwei Pan; Ting Yao; Jinhui Tang; Tao Mei

Résumé

La génération de paragraphes d'images est la tâche de produire une histoire cohérente (généralement un paragraphe) qui décrit le contenu visuel d'une image. Cependant, ce problème n'est pas trivial, en particulier lorsque plusieurs éléments descriptifs et divers doivent être pris en compte pour la génération du paragraphe, ce qui se produit souvent dans les images réelles. Une question légitime est de savoir comment encapsuler ces éléments/sujets dignes d'être mentionnés à partir d'une image, puis décrire l'image d'un sujet à l'autre mais de manière globale avec une structure cohérente. Dans cet article, nous présentons une nouvelle conception --- l'Auto-Encodage Convolutif (AEC) qui utilise exclusivement un cadre d'auto-encodage convolutif et déconvolutif pour la modélisation des sujets sur les caractéristiques régionales d'une image. De plus, nous proposons une architecture, nommée AEC plus Mémoire à Court et Long Terme (AEC-LSTM), qui intègre novellament les sujets appris pour soutenir la génération de paragraphes. Sur le plan technique, l'AEC-LSTM s'appuie sur un cadre de génération de paragraphes basé sur LSTM à deux niveaux avec mécanisme d'attention. Le LSTM au niveau du paragraphe capture la dépendance intersentences dans un paragraphe, tandis que le LSTM au niveau de la phrase génère une phrase conditionnée par chaque sujet appris. Des expériences approfondies ont été menées sur le jeu de données de paragraphes d'images de Stanford, et des résultats supérieurs sont rapportés lorsqu'ils sont comparés aux approches les plus avancées actuellement disponibles. Plus remarquablement encore, l'AEC-LSTM améliore les performances CIDEr de 20,93 % à 25,15 %.