HyperAIHyperAI

Command Palette

Search for a command to run...

Je connais les relations : reconnaissance d’actions zéro-shot via des réseaux de convolution de graphes à deux flux et des graphes de connaissances

Changsheng Xu Tianzhu Zhang Junyu Gao

Résumé

Récemment, avec l'augmentation continue du nombre de catégories d'actions, la reconnaissance d'actions en zéro-shot (ZSAR) a été réalisée en extrayant automatiquement les concepts sous-jacents (tels que les actions, les attributs) présents dans les vidéos. Toutefois, la plupart des méthodes existantes ne exploitent que les indices visuels associés à ces concepts, tout en ignorant les informations de connaissance externe permettant de modéliser des relations explicites entre eux. En réalité, les êtres humains possèdent une capacité remarquable à transférer les connaissances acquises à partir de classes familières afin de reconnaître des classes inconnues. Afin de réduire l’écart de connaissance entre les méthodes actuelles et les performances humaines, nous proposons un cadre end-to-end pour la ZSAR basé sur un graphe de connaissances structuré, capable de modéliser conjointement les relations entre action-attribut, action-action et attribut-attribut. Pour exploiter efficacement ce graphe de connaissances, nous avons conçu un nouveau réseau de convolution par graphe à deux flux (TS-GCN), composé d'une branche classificateur et d'une branche instance. Plus précisément, la branche classificateur prend en entrée les vecteurs d’embedding sémantique de tous les concepts, puis génère les classificateurs associés aux catégories d’actions. La branche instance projette les embeddings et les scores attributs de chaque instance vidéo dans un espace de caractéristiques attributs. Enfin, les classificateurs générés sont évalués sur les caractéristiques attributs de chaque vidéo, et une fonction de perte de classification est utilisée pour optimiser l’ensemble du réseau. Par ailleurs, un module d’attention auto-adaptative est intégré pour modéliser l’information temporelle des vidéos. Des résultats expérimentaux étendus sur trois benchmarks réalistes d’actions — Olympic Sports, HMDB51 et UCF101 — démontrent la performance avantageuse du cadre proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Je connais les relations : reconnaissance d’actions zéro-shot via des réseaux de convolution de graphes à deux flux et des graphes de connaissances | Articles | HyperAI