HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau d'attention graphique à noyau-mélange pour la reconnaissance de situation

Leonid Sigal Mohammed Suhail

Résumé

Comprendre les images au-delà des actions saillantes implique un raisonnement sur le contexte scénique, les objets présents et les rôles qu’ils jouent dans l’événement capturé. La reconnaissance de situation a récemment été introduite comme une tâche consistant à raisonner conjointement sur les verbes (actions) et un ensemble de paires rôle-sémantique et entité (nom) sous la forme de cadres d’action. L’étiquetage d’une image par un cadre d’action nécessite une attribution de valeurs (noms) aux rôles, fondée sur le contenu visuel observé. Parmi les défis inhérents figurent les dépendances structurées conditionnelles riches entre les affectations de rôles en sortie et la sparsité sémantique globale. Dans cet article, nous proposons une nouvelle architecture de réseau neuronal à graphes (GNN) à noyaux mixtes et attention dynamique, conçue pour relever ces défis. Notre GNN permet une structure de graphe dynamique durant l’entraînement et la phase d’inférence, grâce à un mécanisme d’attention sur graphe et à des interactions sensibles au contexte entre les paires de rôles. Nous démontrons l’efficacité de notre modèle ainsi que les choix de conception à l’aide d’expériences menées sur le jeu de données de référence imSitu, obtenant des améliorations de précision allant jusqu’à 10 % par rapport aux méthodes de pointe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp