HyperAIHyperAI
il y a 2 mois

TDSM : Diffusion de Triplets pour le Couplage Squelette-Texte en Reconnaissance d'Actions à Vue Zéro

Jeonghyeok Do; Munchurl Kim
TDSM : Diffusion de Triplets pour le Couplage Squelette-Texte en Reconnaissance d'Actions à Vue Zéro
Résumé

Nous présentons en premier lieu une reconnaissance d'actions basée sur la diffusion avec apprentissage par zéro pour des entrées de squelette. Dans la reconnaissance d'actions par zéro shot basée sur le squelette, l'alignement des caractéristiques du squelette avec les caractéristiques textuelles des étiquettes d'action est essentiel pour prédire avec précision les actions inconnues. Les méthodes précédentes se concentrent sur l'alignement direct entre les espaces latents du squelette et du texte, mais les écarts modaux entre ces espaces entravent l'apprentissage de généralisation robuste. Inspirés par les performances remarquables des modèles de diffusion texte-à-image, nous exploitons leurs capacités d'alignement entre différents modes, en mettant principalement l'accent sur le processus d'entraînement pendant la diffusion inverse plutôt que sur leur puissance générative. Sur cette base, notre cadre est conçu comme une méthode de Diffusion Triplet pour le Matching Squelette-Texte (TDSM), qui aligne les caractéristiques du squelette avec les prompts textuels par diffusion inverse, intégrant ces prompts dans un espace latent unifié squelette-texte pour obtenir un matching robuste. Pour améliorer la puissance discriminante, nous introduisons une nouvelle perte de diffusion triplet (TD) qui incite notre TDSM à corriger les correspondances squelette-texte tout en éloignant celles qui sont incorrectes. Notre TDSM dépasse significativement les méthodes très récentes de pointe avec des marges importantes allant de 2,36 points à 13,05 points, démontrant une précision et une scalabilité supérieures dans les configurations par zéro shot grâce au matching efficace du squelette au texte.

TDSM : Diffusion de Triplets pour le Couplage Squelette-Texte en Reconnaissance d'Actions à Vue Zéro | Articles de recherche récents | HyperAI