Apprentissage coopératif multimodal pour une reconnaissance efficace des actions basée sur les squelettes

La reconnaissance d’actions basée sur les squelettes a suscité un intérêt croissant grâce à l’utilisation de squelettes succincts et robustes. Toutefois, l’absence d’informations détaillées corporelles dans les squelettes limite les performances, tandis que les méthodes multimodales existantes nécessitent des ressources d’inférence importantes et s’avèrent inefficaces lorsqu’elles utilisent des données multimodales tant pendant l’entraînement que pendant l’inférence. Pour remédier à ces limitations et exploiter pleinement les caractéristiques complémentaires des différentes modalités, nous proposons un nouveau cadre de co-apprentissage multimodal (MMCL), en exploitant les grands modèles linguistiques multimodaux (LLMs) comme réseaux auxiliaires afin d’assurer une reconnaissance efficace des actions basée sur les squelettes. Ce cadre permet une co-apprentissage multimodal durant l’entraînement, tout en préservant une efficacité élevée en n’utilisant que des squelettes succincts lors de l’inférence. Notre architecture MMCL repose principalement sur deux modules. Premièrement, le module d’alignement des caractéristiques (FAM) extrait des caractéristiques riches à partir des images vidéo et les aligne avec les caractéristiques globales des squelettes via un apprentissage contrastif. Deuxièmement, le module de raffinement des caractéristiques (FRM) utilise des images RGB mises en contexte temporel ainsi que des instructions textuelles pour générer des caractéristiques instructives, tirant parti de la puissante généralisation des LLMs multimodaux. Ces caractéristiques textuelles instructives sont ensuite utilisées pour affiner les scores de classification, améliorant ainsi la robustesse et la généralisation du modèle, de manière similaire aux étiquettes douces (soft labels). Des expérimentations étendues sur les benchmarks NTU RGB+D, NTU RGB+D 120 et Northwestern-UCLA confirment de manière cohérente l’efficacité de notre MMCL, qui surpassent les méthodes existantes de reconnaissance d’actions basées sur les squelettes. Par ailleurs, les expérimentations sur les jeux de données UTD-MHAD et SYSU-Action démontrent une excellente capacité de généralisation de notre MMCL dans les scénarios de reconnaissance d’actions en zero-shot et en adaptation de domaine. Le code source est disponible publiquement à l’adresse suivante : https://github.com/liujf69/MMCL-Action.