Je connais les relations : reconnaissance d’actions zéro-shot via des réseaux de convolution de graphes à deux flux et des graphes de connaissances
Récemment, avec l'augmentation continue du nombre de catégories d'actions, la reconnaissance d'actions en zéro-shot (ZSAR) a été réalisée en extrayant automatiquement les concepts sous-jacents (tels que les actions, les attributs) présents dans les vidéos. Toutefois, la plupart des méthodes existantes ne exploitent que les indices visuels associés à ces concepts, tout en ignorant les informations de connaissance externe permettant de modéliser des relations explicites entre eux. En réalité, les êtres humains possèdent une capacité remarquable à transférer les connaissances acquises à partir de classes familières afin de reconnaître des classes inconnues. Afin de réduire l’écart de connaissance entre les méthodes actuelles et les performances humaines, nous proposons un cadre end-to-end pour la ZSAR basé sur un graphe de connaissances structuré, capable de modéliser conjointement les relations entre action-attribut, action-action et attribut-attribut. Pour exploiter efficacement ce graphe de connaissances, nous avons conçu un nouveau réseau de convolution par graphe à deux flux (TS-GCN), composé d'une branche classificateur et d'une branche instance. Plus précisément, la branche classificateur prend en entrée les vecteurs d’embedding sémantique de tous les concepts, puis génère les classificateurs associés aux catégories d’actions. La branche instance projette les embeddings et les scores attributs de chaque instance vidéo dans un espace de caractéristiques attributs. Enfin, les classificateurs générés sont évalués sur les caractéristiques attributs de chaque vidéo, et une fonction de perte de classification est utilisée pour optimiser l’ensemble du réseau. Par ailleurs, un module d’attention auto-adaptative est intégré pour modéliser l’information temporelle des vidéos. Des résultats expérimentaux étendus sur trois benchmarks réalistes d’actions — Olympic Sports, HMDB51 et UCF101 — démontrent la performance avantageuse du cadre proposé.