Un modèle d’détection d’objets amélioré pour la génération de graphes scéniques
À mesure que la vision par ordinateur s'améliore, un niveau de compréhension accru devient nécessaire pour résoudre des problèmes plus complexes tels que la recherche sémantique d'images, la génération de légendes d'images et la compréhension de scènes. La compréhension de scènes constitue un problème largement étudié en raison de sa complexité et du manque de représentations de données adéquates. Un graphe de scène (scene graph) est l'une des représentations de données les plus puissantes, capable de mieux capturer le contexte scénique. La tâche du graphe de scène consiste à encoder les objets présents dans la scène, leurs attributs ainsi que les relations entre ces objets. Étant donné que le graphe de scène a démontré son efficacité dans des tâches complexes, l'automatisation de sa génération est devenue indispensable. De nombreuses recherches ont été menées afin d'obtenir des graphes de scène précis en utilisant différentes architectures d'apprentissage profond. Le module commun à ces différentes architectures est le module de détection d'objets, qui localise d'abord les objets dans l'image d'entrée. Dans ce travail, nous proposons d'utiliser les détecteurs d'objets les plus récents de la famille YOLOv5 pour la tâche de génération de graphe de scène. Le modèle proposé, YOLOv5x6, atteint un résultat de pointe (State-of-the-Art) avec une précision moyenne de 32,7 %, surpassant ainsi les travaux antérieurs. En outre, cet article passe en revue les différents détecteurs d'objets utilisés dans la littérature pour la génération de graphes de scène.