Réseau d'attention graphique à noyau-mélange pour la reconnaissance de situation

Comprendre les images au-delà des actions saillantes implique un raisonnement sur le contexte scénique, les objets présents et les rôles qu’ils jouent dans l’événement capturé. La reconnaissance de situation a récemment été introduite comme une tâche consistant à raisonner conjointement sur les verbes (actions) et un ensemble de paires rôle-sémantique et entité (nom) sous la forme de cadres d’action. L’étiquetage d’une image par un cadre d’action nécessite une attribution de valeurs (noms) aux rôles, fondée sur le contenu visuel observé. Parmi les défis inhérents figurent les dépendances structurées conditionnelles riches entre les affectations de rôles en sortie et la sparsité sémantique globale. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal à graphes (GNN) à noyaux mixtes et attention dynamique, conçue pour relever ces défis. Notre GNN permet une structure de graphe dynamique durant l’entraînement et la phase d’inférence, grâce à un mécanisme d’attention sur graphe et à des interactions sensibles au contexte entre les paires de rôles. Nous démontrons l’efficacité de notre modèle ainsi que les choix de conception à l’aide d’expériences menées sur le jeu de données de référence imSitu, obtenant des améliorations de précision allant jusqu’à 10 % par rapport aux méthodes de pointe.