HyperAIHyperAI

Command Palette

Search for a command to run...

Génération expressive de graphes scéniques par infusion de connaissances courantes pour la compréhension et le raisonnement visuels

Edward John G.; Curry M. Jaleed; Breslin Khan

Résumé

La génération de graphes scènes vise à capturer les éléments sémantiques présents dans les images en modélisant les objets et leurs relations de manière structurée, ce qui est essentiel pour des tâches de compréhension et de raisonnement visuels, telles que la génération de légendes d’images, la réponse à des questions visuelles, le traitement d’événements multimédias, le récit visuel et la recherche d’images. Les approches actuelles de génération de graphes scènes offrent des performances et une expressivité limitées pour la compréhension visuelle de haut niveau et le raisonnement. Ce défi peut être atténué en exploitant des connaissances du sens commun, telles que des faits connexes et des connaissances de fond relatives aux éléments sémantiques présents dans les graphes scènes. Dans cet article, nous proposons d’intégrer diverses connaissances du sens commun relatives aux éléments sémantiques des graphes scènes afin de générer des graphes riches et expressifs, en exploitant une source de connaissances hétérogène contenant des connaissances du sens commun consolidées à partir de sept bases de connaissances différentes. Les embeddings de graphe des nœuds objets sont utilisés pour exploiter leurs motifs structurels dans la source de connaissances afin de calculer des métriques de similarité pour le raffinement et l’enrichissement du graphe. Nous avons mené une analyse expérimentale et comparative sur le jeu de données de référence Visual Genome, où la méthode proposée a atteint un taux de rappel supérieur (R@K = 29,89, 35,4, 39,12 pour K = 20, 50, 100) par rapport à l’état de l’art existant (R@K = 25,8, 33,3, 37,8 pour K = 20, 50, 100). Les résultats qualitatifs de la méthode proposée dans une tâche à valeur ajoutée de génération d’images montrent qu’une meilleure réalisme est obtenu grâce à l’utilisation de graphes scènes basés sur les connaissances du sens commun. Ces résultats démontrent l’efficacité de l’intégration de connaissances du sens commun pour améliorer les performances et l’expressivité de la génération de graphes scènes dans le cadre de tâches de compréhension et de raisonnement visuels.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp