GPS-Net : Réseau de détection de propriétés graphiques pour la génération de graphes scéniques

La génération de graphes scènes (SGG) vise à détecter les objets présents dans une image ainsi que les relations entre chaque paire d’objets. Trois propriétés clés des graphes scènes ont été sous-exploitées dans les travaux récents : à savoir, l’information de direction des arêtes, la différence de priorité entre les nœuds, et la distribution à queue longue des relations. À cet effet, dans cet article, nous proposons un réseau appelé GPS-Net (Graph Property Sensing Network), qui exploite pleinement ces trois propriétés pour la SGG. Premièrement, nous introduisons un nouveau module d’échange de messages qui enrichit les caractéristiques des nœuds par des informations contextuelles spécifiques à chaque nœud, tout en codant l’information de direction des arêtes à l’aide d’un modèle trilinéaire. Deuxièmement, nous proposons une fonction de perte sensible à la priorité des nœuds, qui reflète les différences de priorité entre les nœuds durant l’apprentissage. Cette approche repose sur la conception d’une fonction d’application qui ajuste le paramètre de focalisation dans la perte focalisée. Troisièmement, en raison de l’impact du problème de distribution à queue longue sur la fréquence des relations, nous atténuons ce problème en assouplissant d’abord la distribution, puis en permettant son ajustement pour chaque paire sujet-objet en fonction de leur apparence visuelle. Des expériences systématiques démontrent l’efficacité des techniques proposées. En outre, GPS-Net atteint des performances de pointe sur trois bases de données populaires : VG, OI et VRD, avec des gains significatifs dans diverses configurations et selon plusieurs métriques. Le code source et les modèles sont disponibles à l’adresse suivante : \url{https://github.com/taksau/GPS-Net}.