HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la génération de légendes d'images bengali grâce à un modèle encodeur-décodeur basé sur un réseau de neurones convolutif profond

Mohammad Faiyaz Khan S.M. Sadiq-Ur-Rahman Shifath Md. Saiful Islam

Résumé

La génération de légendes d’images est une tâche complexe consistant à produire des descriptions textuelles grammaticalement et sémantiquement correctes d’une image en langage naturel, tout en tenant compte du contexte visuel. Les travaux de recherche notables en génération de légendes d’images en bengali (BIC) existants reposent principalement sur une architecture encodeur-décodeur. Ce papier présente un système de génération de légendes d’images end-to-end basé sur une architecture multimodale, combinant un réseau de neurones convolutifs à une dimension (CNN) pour encoder les informations séquentielles avec un encodeur d’images pré-entraîné ResNet-50 afin d’extraire des caractéristiques visuelles régionales. Nous évaluons la performance de notre approche sur le jeu de données BanglaLekhaImageCaptions à l’aide des métriques d’évaluation existantes, et menons une évaluation humaine pour une analyse qualitative. Les expériences montrent que notre encodeur de langage parvient à capturer des informations fines dans les légendes, et, combiné aux caractéristiques visuelles, génère des légendes précises et diversifiées. Nos résultats surpassent tous les travaux existants en BIC et atteignent une nouvelle performance de pointe (SOTA), obtenant respectivement 0,651 pour BLUE-1, 0,572 pour CIDEr, 0,297 pour METEOR, 0,434 pour ROUGE et 0,357 pour SPICE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de la génération de légendes d'images bengali grâce à un modèle encodeur-décodeur basé sur un réseau de neurones convolutif profond | Articles | HyperAI