Raisonnement fondé sur l'attention et conscient du contexte pour la reconnaissance de situation

La reconnaissance de situation (SR) est une tâche fine de reconnaissance d’actions, dans laquelle le modèle doit non seulement prédire l’action principale présente dans une image, mais aussi estimer les valeurs de tous les rôles sémantiques associés à cette action. La prédiction des rôles sémantiques est particulièrement difficile : une grande variété de possibilités peut correspondre à un rôle sémantique donné. Les travaux existants se sont concentrés sur des architectures de modélisation des dépendances pour résoudre ce problème. Inspirés par les succès obtenus par les méthodes de raisonnement visuel basées sur des requêtes (par exemple, la réponse à des questions visuelles), nous proposons de traiter la prédiction des rôles sémantiques comme un problème de raisonnement visuel basé sur des requêtes. Toutefois, les méthodes actuelles de raisonnement basé sur des requêtes n’ont pas pris en compte la gestion des requêtes interdépendantes, une exigence unique de la prédiction des rôles sémantiques dans la SR. Par conséquent, à notre connaissance, nous proposons la première série de méthodes visant à traiter les requêtes interdépendantes dans le raisonnement visuel basé sur des requêtes. Des expériences étendues démontrent l’efficacité de notre approche, qui atteint des performances remarquables sur la tâche de reconnaissance de situation. En outre, en exploitant les dépendances entre requêtes, nos méthodes surpassent une méthode de pointe existante qui traite chaque requête de manière indépendante. Notre code est disponible à l’adresse : https://github.com/thilinicooray/context-aware-reasoning-for-sr