HyperAIHyperAI

Command Palette

Search for a command to run...

Dual-CNN : Un décodeur de langage convolutif pour la génération de légendes d'images de paragraphes

Xiaojie Wang Fangxiang Feng Yihui Shi Haoyun Liang Ruifan Li

Résumé

Résumé : La tâche de génération de légendes paragraphe pour images vise à produire un paragraphe cohérent décrivant une image donnée. Toutefois, en raison de leur capacité limitée à capturer les dépendances à long terme, les décodeurs basés sur les réseaux de neurones récurrents (RNN) ou les mémoires à court et long terme (LSTM) peinent à générer des descriptions textuelles satisfaisantes sous forme de paragraphe long. En outre, une inefficacité notable dans l’entraînement des décodeurs séquentiels est observée. Inspirés par les avantages des réseaux de neurones convolutifs (CNN), nous proposons dans cet article un décodeur Dual-CNN doté d’une mémoire à long terme et d’un calcul parallèle, capable de produire un paragraphe sémantiquement cohérent pour une image. Notre modèle Dual-CNN est évalué sur le jeu de données Stanford image-paragraph. Des expériences étendues démontrent que notre modèle atteint des résultats comparables à ceux des modèles de pointe. En outre, la diversité et la cohérence des paragraphes générés sont analysées, mettant en évidence l’efficacité supérieure de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp