Réseau Factorisable : Un Cadre Efficace Basé sur les Sous-graphes pour la Génération de Graphes de Scène

La génération de graphes de scène pour décrire toutes les relations au sein d'une image suscite un intérêt croissant ces dernières années. Cependant, la plupart des méthodes précédentes utilisent des structures complexes avec une vitesse d'inférence lente ou dépendent de données externes, ce qui limite l'utilisation du modèle dans des scénarios réels. Pour améliorer l'efficacité de la génération de graphes de scène, nous proposons un graphe de connexion basé sur des sous-graphes afin de représenter concisément le graphe de scène lors de l'inférence. Une méthode d'agrégation ascendante est d'abord utilisée pour factoriser le graphe de scène complet en sous-graphes, où chaque sous-graphe contient plusieurs objets et un sous-ensemble de leurs relations. En remplaçant les nombreuses représentations relationnelles du graphe de scène par moins nombreuses caractéristiques de sous-graphes et d'objets, le calcul à l'étape intermédiaire est considérablement réduit. De plus, les informations spatiales sont maintenues par les caractéristiques des sous-graphes, ce qui est exploité par notre structure proposée de Passage de Messages Pondéré Spatialement (SMP) et notre module d'Inférence Relationnelle Sensible à l'Espace (SRI) pour faciliter la reconnaissance des relations. Sur les jeux de données récents Visual Relationship Detection et Visual Genome, notre méthode surpassent la méthode actuelle la plus performante tant en termes de précision que de vitesse.