Affronter les défis de la génération de graphes scéniques à l’aide d’interactions locale-vers-global

Dans ce travail, nous explorons de nouveaux aspects des défis fondamentaux posés par la tâche de génération de graphes scènes (Scene Graph Generation, SGG). Une analyse quantitative et qualitative du jeu de données Visual Genome suggère trois observations clés : 1) l’ambiguïté : même lorsque les relations entre objets partagent les mêmes entités (ou prédicats), elles peuvent ne pas être visuellement ni sémantiquement similaires ; 2) l’asymétrie : bien que la direction intrinsèque d’une relation soit fondamentale, elle n’a pas été suffisamment prise en compte dans les travaux antérieurs ; 3) les contextes d’ordre supérieur : exploiter les identités de certains éléments du graphe peut améliorer la précision de la génération des graphes scènes. Inspirés par cette analyse, nous proposons un nouveau cadre pour la SGG, appelé Local-to-Global Interaction Networks (LOGIN). Localement, les interactions captent l’essence des relations entre trois instances : sujet, objet et arrière-plan, tout en intégrant explicitement une conscience de la direction en imposant un ordre d’entrée spécifique pour le sujet et l’objet. Globalement, les interactions encodent les contextes entre tous les composants du graphe (c’est-à-dire les nœuds et les arêtes). Enfin, une fonction de perte Attract & Repel est utilisée pour affiner la distribution des embeddings des prédicats. Par conception, notre cadre permet de prédire le graphe scène de manière ascendante, en tirant parti de la complémentarité potentielle entre les éléments. Pour quantifier le degré de conscience de la direction relationnelle par LOGIN, nous introduisons également une nouvelle tâche diagnostique, nommée Classification des Relations Bidirectionnelles (Bidirectional Relationship Classification, BRC). Les résultats expérimentaux montrent que LOGIN réussit à distinguer efficacement la direction relationnelle par rapport aux méthodes existantes (dans la tâche BRC), tout en atteignant des performances de pointe sur le benchmark Visual Genome (dans la tâche SGG).