HyperAIHyperAI
il y a 12 jours

Quand une image raconte une histoire : le rôle des informations visuelles et sémantiques dans la génération de descriptions paragraphe

{Simon Dobnik, Nikolai Ilinykh}
Quand une image raconte une histoire : le rôle des informations visuelles et sémantiques dans la génération de descriptions paragraphe
Résumé

La génération de descriptions d’images sur plusieurs phrases constitue une tâche difficile, exigeant un modèle performant capable de produire des paragraphes cohérents et précis décrivant les objets les plus marquants d’une image. Nous soutenons que l’exploitation de plusieurs sources d’information est bénéfique lors de la description de scènes visuelles à l’aide de séquences longues. Ces sources incluent (i) des informations perceptuelles et (ii) des informations sémantiques (linguistiques) concernant la manière de décrire ce qui est présent dans l’image. Nous comparons également l’impact de deux mécanismes de pooling différents, appliqués soit à une seule modalité, soit à leur combinaison. Nous démontrons qu’un modèle exploitant à la fois les entrées visuelles et linguistiques peut générer des paragraphes précis et diversifiés lorsqu’il est associé à un mécanisme de pooling particulier. Les résultats obtenus par évaluation automatique et humaine montrent que l’apprentissage de l’intégration d’informations sémantiques aux stimulations visuelles dans un modèle de génération de paragraphes n’est pas trivial, soulignant ainsi une variété de pistes pour des expériences futures.

Quand une image raconte une histoire : le rôle des informations visuelles et sémantiques dans la génération de descriptions paragraphe | Articles de recherche récents | HyperAI