HyperAIHyperAI

Command Palette

Search for a command to run...

Quand une image raconte une histoire : le rôle des informations visuelles et sémantiques dans la génération de descriptions paragraphe

Simon Dobnik Nikolai Ilinykh

Résumé

La génération de descriptions d’images sur plusieurs phrases constitue une tâche difficile, exigeant un modèle performant capable de produire des paragraphes cohérents et précis décrivant les objets les plus marquants d’une image. Nous soutenons que l’exploitation de plusieurs sources d’information est bénéfique lors de la description de scènes visuelles à l’aide de séquences longues. Ces sources incluent (i) des informations perceptuelles et (ii) des informations sémantiques (linguistiques) concernant la manière de décrire ce qui est présent dans l’image. Nous comparons également l’impact de deux mécanismes de pooling différents, appliqués soit à une seule modalité, soit à leur combinaison. Nous démontrons qu’un modèle exploitant à la fois les entrées visuelles et linguistiques peut générer des paragraphes précis et diversifiés lorsqu’il est associé à un mécanisme de pooling particulier. Les résultats obtenus par évaluation automatique et humaine montrent que l’apprentissage de l’intégration d’informations sémantiques aux stimulations visuelles dans un modèle de génération de paragraphes n’est pas trivial, soulignant ainsi une variété de pistes pour des expériences futures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp