HyperAIHyperAI
il y a 9 jours

Distillation de contextes cross-temporels pour la reconnaissance continue de la langue des signes

{ShengYong Chen, Tiantian Yuan, Kaihua Zhang, Bo Liu, Qing Guo, Wanli Xue, Leming Guo}
Distillation de contextes cross-temporels pour la reconnaissance continue de la langue des signes
Résumé

La reconnaissance continue de la langue des signes (CSLR) vise à identifier les glosses dans une vidéo de langue des signes. Les méthodes de pointe actuelles reposent généralement sur deux modules : un module de perception spatiale et un module d’agrégation temporelle, appris conjointement de manière end-to-end. Les résultats existants dans [9, 20, 25, 36] ont montré que, en tant que composant frontal du modèle global, le module de perception spatiale, chargé d’extraction des caractéristiques spatiales, tend à être insuffisamment entraîné. Dans cet article, nous menons d’abord des études empiriques et démontrons qu’un module d’agrégation temporelle peu profond permet un entraînement plus approfondi du module de perception spatiale. Toutefois, un tel module temporel peu profond peine à capturer efficacement à la fois les informations contextuelles temporelles locales et globales propres à la langue des signes. Pour résoudre ce dilemme, nous proposons un modèle d’agrégation contextuelle temporelle croisée (CTCA). Plus précisément, nous concevons un réseau à double chemin comprenant deux branches, respectivement dédiées à la perception du contexte temporel local et du contexte temporel global. Nous introduisons également une fonction d’apprentissage par distillation de connaissances croisée, permettant d’agrégérer ces deux types de contexte ainsi que les connaissances linguistiques a priori. Cette distillation de connaissances permet au module d’agrégation temporelle final, à branche unique, de percevoir simultanément le contexte temporel local-global et le contexte sémantique. La structure simplifiée du module de perception temporelle favorise ainsi l’apprentissage du module de perception spatiale. Des expériences étendues sur des benchmarks exigeants de CSLR montrent que notre méthode surpasser toutes les approches de pointe existantes.