Reconnaissance de situations avec des réseaux neuronaux graphiques

Nous abordons le problème de la reconnaissance des situations dans les images. Étant donné une image, la tâche consiste à prédire le verbe (action) le plus saillant et à remplir ses rôles sémantiques, tels que qui effectue l'action, quelle est la source et la cible de l'action, etc. Les différents verbes ont des rôles distincts (par exemple, attaquer a un rôle d'arme [weapon]), et chaque rôle peut prendre de nombreuses valeurs possibles (substantifs). Nous proposons un modèle basé sur les Réseaux Neuraux Graphiques qui nous permet de capturer efficacement les dépendances conjointes entre les rôles en utilisant des réseaux neuronaux définis sur un graphe. Des expériences avec différentes connectivités de graphe montrent que notre approche, qui propage l'information entre les rôles, surpasse significativement les travaux existants ainsi que plusieurs lignes de base. Nous obtenons une amélioration d'environ 3-5% par rapport aux travaux précédents pour la prédiction de la situation complète. Nous fournissons également une analyse qualitative approfondie de notre modèle et de l'influence des différents rôles dans les verbes.