HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle de fusion multi-sémantique pour la reconnaissance généralisée d'actions basée sur le squelette

Ming-Zhe Li Zhen Jia Zhang Zhang Zhanyu Ma Liang Wang

Résumé

La reconnaissance d'actions basée sur des squelettes à zéro exemple généralisée (GZSSAR) est un nouveau problème complexe dans la communauté de la vision par ordinateur, qui nécessite que les modèles reconnaissent des actions sans aucune donnée d'apprentissage. Les études précédentes n'utilisaient que les étiquettes d'actions sous forme de phrases verbales comme prototypes sémantiques pour apprendre l'alignement entre les actions basées sur des squelettes et un espace sémantique partagé. Cependant, l'information sémantique limitée des étiquettes d'actions restreint la capacité de généralisation des caractéristiques squelettiques pour la reconnaissance d'actions inconnues. Pour résoudre ce dilemme, nous proposons un modèle de fusion multi-sémantique (MSF) visant à améliorer les performances de la GZSSAR. Dans ce modèle, deux types de descriptions textuelles au niveau des classes (c'est-à-dire, les descriptions d'actions et les descriptions de mouvements) sont collectés en tant qu'informations sémantiques auxiliaires afin d'accroître l'efficacité de l'apprentissage des caractéristiques squelettiques généralisables. Plus précisément, un encodeur linguistique pré-entraîné prend en entrée les descriptions d'actions, les descriptions de mouvements et les étiquettes de classe originales pour obtenir des caractéristiques sémantiques riches pour chaque classe d'action, tandis qu'un encodeur squelettique est utilisé pour extraire les caractéristiques squelettiques. Ensuite, un module génératif basé sur un autoencodeur variationnel (VAE) est mis en œuvre pour apprendre une correspondance inter-modale entre les caractéristiques squelettiques et sémantiques. Enfin, un module de classification est construit pour identifier les catégories d'actions des échantillons d'entrée, où une porte de classification vue/non-vue est adoptée pour prédire si l'échantillon provient ou non des classes d'actions vues dans le cadre de la GZSSAR. Les performances supérieures comparées aux modèles précédents valident l'efficacité du modèle MSF proposé sur la GZSSAR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp