HyperAIHyperAI

Command Palette

Search for a command to run...

Réexaminer le cadre en deux étapes pour la reconnaissance de situations ancrées

Meng Wei Long Chen Wei Ji Xiaoyu Yue Tat-Seng Chua

Résumé

La Reconnaissance de Situation Ancrée (GSR, Grounded Situation Recognition), c'est-à-dire la reconnaissance de la catégorie d'activité ou de verbe pertinente dans une image (par exemple, acheter) et la détection de tous les rôles sémantiques correspondants (par exemple, l'agent et les biens), est une étape essentielle vers une compréhension d'événements "humanoïde". Étant donné que chaque verbe est associé à un ensemble spécifique de rôles sémantiques, toutes les méthodes GSR existantes recourent à un cadre en deux étapes : prédiction du verbe en première étape et détection des rôles sémantiques en deuxième étape. Cependant, il existe des inconvénients évidents aux deux étapes :1) La perte d'entropie croisée (XE, cross-entropy) largement utilisée pour la reconnaissance d'objets est insuffisante pour la classification des verbes en raison de la grande variabilité intra-classe et de la forte similarité inter-classe parmi les activités quotidiennes.2) Tous les rôles sémantiques sont détectés de manière autoregressive, ce qui échoue à modéliser les relations sémantiques complexes entre différents rôles.A cet effet, nous proposons un nouveau modèle SituFormer pour GSR, composé d'un Modèle Verbal Coarse-to-Fine (CFVM, Coarse-to-Fine Verb Model) et d'un Modèle Nominal basé sur Transformer (TNM, Transformer-based Noun Model). Le CFVM est un modèle de prédiction verbale en deux étapes : un modèle grossier formé avec une perte XE propose d'abord un ensemble de candidats verbaux, puis un modèle fin formé avec une perte triplet réordonne ces candidats grâce à des caractéristiques verbales améliorées (non seulement séparables mais également discriminantes). Le TNM est un modèle de détection des rôles sémantiques basé sur Transformer, qui détecte tous les rôles simultanément. Grâce à la capacité du décodeur Transformer à modéliser les relations globales et sa flexibilité, le TNM peut pleinement explorer la dépendance statistique des rôles.Des validations approfondies sur le banc d'essai SWiG montrent que SituFormer atteint une nouvelle performance state-of-the-art avec des gains significatifs selon diverses métriques. Le code source est disponible à l'adresse suivante : https://github.com/kellyiss/SituFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp