Amélioration de la génération de légendes d'images bengali grâce à un modèle encodeur-décodeur basé sur un réseau de neurones convolutif profond

La génération de légendes d’images est une tâche complexe consistant à produire des descriptions textuelles grammaticalement et sémantiquement correctes d’une image en langage naturel, tout en tenant compte du contexte visuel. Les travaux de recherche notables en génération de légendes d’images en bengali (BIC) existants reposent principalement sur une architecture encodeur-décodeur. Ce papier présente un système de génération de légendes d’images end-to-end basé sur une architecture multimodale, combinant un réseau de neurones convolutifs à une dimension (CNN) pour encoder les informations séquentielles avec un encodeur d’images pré-entraîné ResNet-50 afin d’extraire des caractéristiques visuelles régionales. Nous évaluons la performance de notre approche sur le jeu de données BanglaLekhaImageCaptions à l’aide des métriques d’évaluation existantes, et menons une évaluation humaine pour une analyse qualitative. Les expériences montrent que notre encodeur de langage parvient à capturer des informations fines dans les légendes, et, combiné aux caractéristiques visuelles, génère des légendes précises et diversifiées. Nos résultats surpassent tous les travaux existants en BIC et atteignent une nouvelle performance de pointe (SOTA), obtenant respectivement 0,651 pour BLUE-1, 0,572 pour CIDEr, 0,297 pour METEOR, 0,434 pour ROUGE et 0,357 pour SPICE.