HyperAIHyperAI
il y a 2 mois

Réexaminer le cadre en deux étapes pour la reconnaissance de situations ancrées

Wei, Meng ; Chen, Long ; Ji, Wei ; Yue, Xiaoyu ; Chua, Tat-Seng
Réexaminer le cadre en deux étapes pour la reconnaissance de situations ancrées
Résumé

La Reconnaissance de Situation Ancrée (GSR, Grounded Situation Recognition), c'est-à-dire la reconnaissance de la catégorie d'activité ou de verbe pertinente dans une image (par exemple, acheter) et la détection de tous les rôles sémantiques correspondants (par exemple, l'agent et les biens), est une étape essentielle vers une compréhension d'événements "humanoïde". Étant donné que chaque verbe est associé à un ensemble spécifique de rôles sémantiques, toutes les méthodes GSR existantes recourent à un cadre en deux étapes : prédiction du verbe en première étape et détection des rôles sémantiques en deuxième étape. Cependant, il existe des inconvénients évidents aux deux étapes :1) La perte d'entropie croisée (XE, cross-entropy) largement utilisée pour la reconnaissance d'objets est insuffisante pour la classification des verbes en raison de la grande variabilité intra-classe et de la forte similarité inter-classe parmi les activités quotidiennes.2) Tous les rôles sémantiques sont détectés de manière autoregressive, ce qui échoue à modéliser les relations sémantiques complexes entre différents rôles.A cet effet, nous proposons un nouveau modèle SituFormer pour GSR, composé d'un Modèle Verbal Coarse-to-Fine (CFVM, Coarse-to-Fine Verb Model) et d'un Modèle Nominal basé sur Transformer (TNM, Transformer-based Noun Model). Le CFVM est un modèle de prédiction verbale en deux étapes : un modèle grossier formé avec une perte XE propose d'abord un ensemble de candidats verbaux, puis un modèle fin formé avec une perte triplet réordonne ces candidats grâce à des caractéristiques verbales améliorées (non seulement séparables mais également discriminantes). Le TNM est un modèle de détection des rôles sémantiques basé sur Transformer, qui détecte tous les rôles simultanément. Grâce à la capacité du décodeur Transformer à modéliser les relations globales et sa flexibilité, le TNM peut pleinement explorer la dépendance statistique des rôles.Des validations approfondies sur le banc d'essai SWiG montrent que SituFormer atteint une nouvelle performance state-of-the-art avec des gains significatifs selon diverses métriques. Le code source est disponible à l'adresse suivante : https://github.com/kellyiss/SituFormer.

Réexaminer le cadre en deux étapes pour la reconnaissance de situations ancrées | Articles de recherche récents | HyperAI