HDBN : Un nouveau réseau hybride à double branche pour une reconnaissance d’actions basée sur la structure squelettique robuste

La reconnaissance d’actions basée sur les squelettes a connu un intérêt croissant grâce à l’utilisation de représentations squelettiques concises et robustes. Toutefois, les méthodes actuelles ont tendance à s’appuyer sur un seul réseau principal (backbone) pour modéliser la modalité squelette, ce qui peut être limité par des défauts intrinsèques du réseau. Pour surmonter cette contrainte et exploiter pleinement les caractéristiques complémentaires des différentes architectures de réseaux, nous proposons un nouveau réseau hybride à deux branches (Hybrid Dual-Branch Network, HDBN) pour une reconnaissance d’actions basée sur les squelettes plus robuste. Ce modèle tire parti de la capacité des réseaux de convolution sur graphe (GCN) à traiter les données structurées en graphe, ainsi que des puissantes capacités de modélisation à longue portée des Transformers pour capturer des informations globales. Plus précisément, notre HDBN se compose de deux branches principales : MixGCN et MixFormer. Ces deux branches utilisent respectivement les GCN et les Transformers pour modéliser les modalités squelettiques 2D et 3D. Le modèle HDBN proposé s’est imposé parmi les meilleures solutions de la compétition Multi-Modal Video Reasoning and Analyzing (MMVRAC) du Grand Défi ICME 2024, atteignant des précisions de 47,95 % et 75,36 % sur deux benchmarks du jeu de données UAV-Human, surpassant la plupart des méthodes existantes. Le code source sera rendu public à l’adresse suivante : https://github.com/liujf69/ICMEW2024-Track10.