Neural Motifs : Analyse de Graphes de Scène avec Contexte Global

Nous examinons le problème de la production de représentations graphiques structurées des scènes visuelles. Notre travail analyse le rôle des motifs : sous-structures apparaissant régulièrement dans les graphes de scènes. Nous présentons de nouvelles insights quantitatives sur ces structures répétitives dans l'ensemble de données Visual Genome. Notre analyse montre que les étiquettes d'objets sont fortement prédictives des étiquettes de relations, mais pas l'inverse. Nous constatons également qu'il existe des motifs récurrents même dans les sous-graphes plus grands : plus de 50 % des graphes contiennent des motifs impliquant au moins deux relations. Notre analyse motive une nouvelle ligne de base : étant donné les détections d'objets, prédire la relation la plus fréquente entre les paires d'objets avec les étiquettes données, telles qu'observées dans l'ensemble d'entraînement. Cette ligne de base améliore l'état de l'art précédent avec une amélioration moyenne relative de 3,6 % sur différents paramètres d'évaluation. Nous introduisons ensuite les Réseaux Motifs Empilés (Stacked Motif Networks), une nouvelle architecture conçue pour capturer des motifs d'ordre supérieur dans les graphes de scènes, qui améliore encore notre ligne de base robuste avec un gain moyen relatif de 7,1 %. Notre code est disponible sur github.com/rowanz/neural-motifs.Note :- "insights" a été traduit par "insights" car c'est un terme couramment utilisé en français dans le domaine scientifique et technologique.- "state-of-the-art" a été traduit par "état de l'art", qui est la traduction standard utilisée en français.- "Réseaux Motifs Empilés" est la traduction proposée pour "Stacked Motif Networks". Les termes techniques ont été conservés en majuscules pour souligner leur importance.- L’URL a été conservée telle quelle, car il s’agit d’une référence directe à un dépôt GitHub.