HyperAIHyperAI
il y a 16 jours

NeuSyRE : Cadre de compréhension et de raisonnement visuels neuro-symboliques basé sur l'enrichissement des graphes de scène

{Edward Curry, John Breslin, M. Jaleed Khan}
Résumé

Les approches hybrides neuro-symboliques sont inévitables pour assurer une compréhension et un raisonnement de haut niveau fluides des scènes visuelles. La génération de graphes de scène (SGG, Scene Graph Generation) est une méthode de représentation symbolique d’images fondée sur les réseaux de neurones profonds (DNN), qui consiste à prédire les objets présents dans une image, leurs attributs ainsi que les relations visuelles appariées entre eux, afin de construire des graphes de scène utilisés dans des tâches ultérieures de raisonnement visuel. Les jeux de données d’entraînement collectés par le biais de crowdsourcing utilisés dans le cadre de la SGG sont fortement déséquilibrés, ce qui entraîne des résultats biaisés. Le grand nombre de triplets possibles rend difficile la collecte de suffisamment d’échantillons d’entraînement pour chaque concept visuel ou relation. Pour relever ces défis, nous proposons d’enrichir l’approche classique de SGG fondée sur les données en intégrant des connaissances du sens commun, afin d’améliorer l’expressivité et l’autonomie de la compréhension et du raisonnement visuels. Nous présentons un cadre de compréhension et de raisonnement visuel neuro-symbolique à couplage lâche, qui utilise une chaîne de traitement basée sur les DNN pour la détection d’objets et la prédiction multi-modale des relations appariées dans le but de générer des graphes de scène, tout en exploitant des connaissances du sens commun issues de graphes de connaissances hétérogènes afin d’enrichir les graphes de scène et d’améliorer le raisonnement ultérieur. Une évaluation approfondie est menée sur plusieurs jeux de données standards, notamment Visual Genome et Microsoft COCO, dans laquelle la méthode proposée obtient de meilleurs résultats que les méthodes de SGG les plus avancées en termes de scores de rappel des relations, à savoir Recall@K et mean Recall@K, ainsi que des méthodes les plus récentes de génération de légendes d’images basées sur les graphes de scène, en termes de scores SPICE et CIDEr, tout en conservant des scores comparables en BLEU, ROGUE et METEOR. Grâce à cette enrichissement, les résultats qualitatifs montrent une meilleure expressivité des graphes de scène, conduisant à une génération de légendes plus intuitive et plus significative. Nos résultats valident l’efficacité de l’enrichissement des graphes de scène par des connaissances du sens commun tirées de graphes de connaissances hétérogènes. Ce travail établit une base pour les recherches futures en compréhension et raisonnement visuels améliorés par des connaissances.

NeuSyRE : Cadre de compréhension et de raisonnement visuels neuro-symboliques basé sur l'enrichissement des graphes de scène | Articles de recherche récents | HyperAI