Génération expressive de graphes scéniques par infusion de connaissances courantes pour la compréhension et le raisonnement visuels
La génération de graphes scènes vise à capturer les éléments sémantiques présents dans les images en modélisant les objets et leurs relations de manière structurée, ce qui est essentiel pour des tâches de compréhension et de raisonnement visuels, telles que la génération de légendes d’images, la réponse à des questions visuelles, le traitement d’événements multimédias, le récit visuel et la recherche d’images. Les approches actuelles de génération de graphes scènes offrent des performances et une expressivité limitées pour la compréhension visuelle de haut niveau et le raisonnement. Ce défi peut être atténué en exploitant des connaissances du sens commun, telles que des faits connexes et des connaissances de fond relatives aux éléments sémantiques présents dans les graphes scènes. Dans cet article, nous proposons d’intégrer diverses connaissances du sens commun relatives aux éléments sémantiques des graphes scènes afin de générer des graphes riches et expressifs, en exploitant une source de connaissances hétérogène contenant des connaissances du sens commun consolidées à partir de sept bases de connaissances différentes. Les embeddings de graphe des nœuds objets sont utilisés pour exploiter leurs motifs structurels dans la source de connaissances afin de calculer des métriques de similarité pour le raffinement et l’enrichissement du graphe. Nous avons mené une analyse expérimentale et comparative sur le jeu de données de référence Visual Genome, où la méthode proposée a atteint un taux de rappel supérieur (R@K = 29,89, 35,4, 39,12 pour K = 20, 50, 100) par rapport à l’état de l’art existant (R@K = 25,8, 33,3, 37,8 pour K = 20, 50, 100). Les résultats qualitatifs de la méthode proposée dans une tâche à valeur ajoutée de génération d’images montrent qu’une meilleure réalisme est obtenu grâce à l’utilisation de graphes scènes basés sur les connaissances du sens commun. Ces résultats démontrent l’efficacité de l’intégration de connaissances du sens commun pour améliorer les performances et l’expressivité de la génération de graphes scènes dans le cadre de tâches de compréhension et de raisonnement visuels.