HyperAIHyperAI
il y a 11 jours

KnowZRel : Récupération zéro-shot de relations fondée sur les connaissances courantes pour la génération de graphes de scènes généralisés

{Edward Curry, John G. Breslin, M. Jaleed Khan}
Résumé

Un graphe de scène est une représentation clé des images en raisonnement visuel. La capacité de généralisation des méthodes de génération de graphes de scène (SGG, Scene Graph Generation) est essentielle pour assurer un raisonnement fiable et une application concrète. Toutefois, les jeux de données d'entraînement déséquilibrés limitent cette généralisation, en sous-représentant des relations visuelles significatives. Les méthodes SGG actuelles utilisant des sources de connaissances externes rencontrent des limites dues à ces déséquilibres ou à une couverture restreinte des relations, ce qui affecte leur capacité de raisonnement et de généralisation. Nous proposons une nouvelle approche neurosymbolique qui intègre la détection d'objets pilotée par les données à une révision des objets fondée sur un graphe de connaissances hétérogène, ainsi qu'une récupération de relations en zéro-shot (zero-shot), mettant en évidence une synergie faiblement couplée entre les composants neuronaux et symboliques. Cette combinaison surmonte les limitations des jeux de données d'entraînement déséquilibrés en génération de graphes de scène et permet une prédiction efficace de relations visuelles inédites. Les objets sont détectés à l’aide d’un réseau neuronal profond basé sur des régions, puis affinés selon leur similarité positionnelle et structurelle, avant que les relations visuelles par paires ne soient récupérées à l’aide d’un graphe de connaissances hétérogène. Les relations visuelles redondantes ou non pertinentes sont éliminées en fonction de la similarité entre les étiquettes de relations et les embeddings des nœuds. Enfin, les relations visuelles sont interconnectées pour générer le graphe de scène. Le graphe de connaissances hétérogène utilisé combine diverses sources de connaissances, offrant ainsi des connaissances empiriques riches sur les objets et leurs interactions dans le monde. Notre méthode, évaluée sur le jeu de données de référence Visual Genome et la métrique de rappel en zéro-shot (zR@K), atteint une amélioration de 59,96 % par rapport aux méthodes de pointe existantes, démontrant ainsi son efficacité en SGG généralisée. L’étape de révision des objets améliore significativement les performances de détection d’objets de 57,1 %. Une évaluation complémentaire sur le jeu de données GQA confirme la capacité de généralisation de notre méthode sur des jeux de données différents. Nous avons également comparé diverses sources de connaissances et modèles d’embeddings afin d’identifier la combinaison optimale pour la SGG en zéro-shot. Le code source est disponible à l’adresse suivante : https://github.com/jaleedkhan/zsrr-sgg.

KnowZRel : Récupération zéro-shot de relations fondée sur les connaissances courantes pour la génération de graphes de scènes généralisés | Articles de recherche récents | HyperAI