HyperAIHyperAI
il y a 11 jours

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

{Bernt Schiele, Vera Demberg, Khushboo Mehra, Asad Sayeed, Rakshith Shetty, Xudong Hong}
Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène
Résumé

Un problème rencontré dans les récits générés automatiquement à partir de séquences d’images est qu’ils utilisent un vocabulaire trop générique et des structures de phrases peu variées, tout en échouant à reproduire les caractéristiques distributionnelles du texte produit par des humains. Pour résoudre ce problème, nous introduisons des représentations explicites des objets et de leurs relations en extrayant des graphes de scène à partir des images. L’utilisation d’un embedding de ces graphes de scène permet à notre modèle de raisonner de manière plus explicite sur les objets et leurs relations durant la génération de récits, en comparaison avec les caractéristiques globales issues d’un classificateur d’objets employées dans les travaux antérieurs. Nous mettons en œuvre des métriques prenant en compte la diversité des mots et des expressions dans les récits générés, ainsi que la référence aux caractéristiques visuelles narrativement significatives des images, et montrons que notre approche surpasse les systèmes antérieurs. Nos expériences indiquent également que nos modèles obtiennent des résultats compétitifs selon les métriques basées sur des références.

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène | Articles de recherche récents | HyperAI