HyperAIHyperAI
il y a 2 mois

Modèle de fusion multi-sémantique pour la reconnaissance généralisée d'actions basée sur le squelette

Li, Ming-Zhe ; Jia, Zhen ; Zhang, Zhang ; Ma, Zhanyu ; Wang, Liang
Modèle de fusion multi-sémantique pour la reconnaissance généralisée d'actions basée sur le squelette
Résumé

La reconnaissance d'actions basée sur des squelettes à zéro exemple généralisée (GZSSAR) est un nouveau problème complexe dans la communauté de la vision par ordinateur, qui nécessite que les modèles reconnaissent des actions sans aucune donnée d'apprentissage. Les études précédentes n'utilisaient que les étiquettes d'actions sous forme de phrases verbales comme prototypes sémantiques pour apprendre l'alignement entre les actions basées sur des squelettes et un espace sémantique partagé. Cependant, l'information sémantique limitée des étiquettes d'actions restreint la capacité de généralisation des caractéristiques squelettiques pour la reconnaissance d'actions inconnues. Pour résoudre ce dilemme, nous proposons un modèle de fusion multi-sémantique (MSF) visant à améliorer les performances de la GZSSAR. Dans ce modèle, deux types de descriptions textuelles au niveau des classes (c'est-à-dire, les descriptions d'actions et les descriptions de mouvements) sont collectés en tant qu'informations sémantiques auxiliaires afin d'accroître l'efficacité de l'apprentissage des caractéristiques squelettiques généralisables. Plus précisément, un encodeur linguistique pré-entraîné prend en entrée les descriptions d'actions, les descriptions de mouvements et les étiquettes de classe originales pour obtenir des caractéristiques sémantiques riches pour chaque classe d'action, tandis qu'un encodeur squelettique est utilisé pour extraire les caractéristiques squelettiques. Ensuite, un module génératif basé sur un autoencodeur variationnel (VAE) est mis en œuvre pour apprendre une correspondance inter-modale entre les caractéristiques squelettiques et sémantiques. Enfin, un module de classification est construit pour identifier les catégories d'actions des échantillons d'entrée, où une porte de classification vue/non-vue est adoptée pour prédire si l'échantillon provient ou non des classes d'actions vues dans le cadre de la GZSSAR. Les performances supérieures comparées aux modèles précédents valident l'efficacité du modèle MSF proposé sur la GZSSAR.