Réseau de routage intégrant des connaissances pour la génération de graphes de scène

Pour comprendre une scène en profondeur, il ne suffit pas de localiser ou d'identifier les objets individuels, mais il est également nécessaire d'inférer les relations et les interactions entre eux. Cependant, étant donné que la distribution des relations du monde réel est gravement déséquilibrée, les méthodes existantes se montrent assez inefficaces pour les relations moins fréquentes. Dans cette étude, nous constatons que les corrélations statistiques entre les paires d'objets et leurs relations peuvent régulariser efficacement l'espace sémantique et rendre la prédiction moins ambiguë, permettant ainsi de bien résoudre le problème de distribution déséquilibrée. Pour atteindre cet objectif, nous intégrons ces corrélations statistiques dans des réseaux neuronaux profonds afin de faciliter la génération de graphes de scènes en développant un Réseau de Routage Intégrant des Connaissances (Knowledge-Embedded Routing Network). Plus précisément, nous montrons que les corrélations statistiques entre les objets apparaissant dans les images et leurs relations peuvent être explicitement représentées par un graphe de connaissances structuré, et qu'un mécanisme de routage est appris pour propager des messages à travers le graphe afin d'explorer leurs interactions. De nombreuses expériences menées sur le jeu de données Visual Genome à grande échelle démontrent la supériorité de notre méthode proposée par rapport aux concurrents actuels de pointe.