il y a 6 mois

Résumé

La génération de légendes stylisées pour des images constitue une tâche difficile, car elle exige non seulement une description précise du contenu visuel, mais aussi une expression appropriée du style linguistique souhaité. Dans cet article, nous proposons MemCap, une nouvelle méthode de génération de légendes d’images stylisées qui encode explicitement les connaissances relatives aux styles linguistiques grâce à un mécanisme de mémoire. Contrairement aux approches existantes qui reposent fortement sur un modèle linguistique pour capturer les facteurs de style, notre méthode se base sur la mémoire d’éléments stylisés appris à partir d’un corpus d’entraînement. Plus précisément, nous avons conçu un module de mémoire composé d’un ensemble de vecteurs d’encodage destinés à représenter des phrases liées au style présentes dans le corpus d’entraînement. Pour extraire ces phrases liées au style, nous avons développé un algorithme de décomposition de phrases qui divise une phrase stylisée en deux parties : une partie liée au style, reflétant le registre linguistique, et une partie liée au contenu, contenant les éléments visuels. Lors de la génération des légendes, MemCap extrait d’abord, via un mécanisme d’attention, les connaissances sur le style pertinentes au contenu à partir du module de mémoire, puis intègre ces connaissances dans un modèle linguistique. Des expériences étendues menées sur deux jeux de données de génération de légendes d’images stylisées (SentiCap et FlickrStyle10K) démontrent l’efficacité de notre approche.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Décrivain D'image

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Décrivain D'image

Multimodal

Traitement Du Langage Naturel

Multimodal

Tâche

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MemCap : Mémorisation des connaissances stylistiques pour la génération de légendes d'images

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MemCap : Mémorisation des connaissances stylistiques pour la génération de légendes d'images

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MemCap : Mémorisation des connaissances stylistiques pour la génération de légendes d'images

Xiaoxun Zhang Xinxiao wu Wentian Zhao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters