Command Palette
Search for a command to run...
Reconnaissance de situations avec des réseaux neuronaux graphes
Reconnaissance de situations avec des réseaux neuronaux graphes
Résumé
Nous abordons le problème de la reconnaissance de situations dans les images. Étant donné une image, la tâche consiste à prédire le verbe (action) le plus saillant, ainsi qu’à remplir ses rôles sémantiques, tels que l’agent effectuant l’action, la source ou la cible de l’action, etc. Les différents verbes impliquent des rôles variés (par exemple, « attaquer » suppose un instrument), et chaque rôle peut prendre plusieurs valeurs possibles (noms). Nous proposons un modèle basé sur les réseaux de neurones graphes (Graph Neural Networks), permettant de capturer efficacement les dépendances conjointes entre les rôles à l’aide de réseaux neuronaux définis sur un graphe. Des expériences menées avec différentes connectivités de graphe montrent que notre approche, qui propage l’information entre les rôles, surpasse significativement les méthodes existantes ainsi que plusieurs références (baselines). Nous obtenons une amélioration d’environ 3 à 5 % par rapport aux travaux antérieurs dans la prédiction complète de la situation. Nous fournissons également une analyse qualitative approfondie de notre modèle, ainsi qu’une étude de l’influence des différents rôles sur les verbes.