Apprentissage par distillation mutuelle auto-similaire pour la reconnaissance continue des langues des signes

Ces dernières années, l’apprentissage profond a considérablement avancé la reconnaissance continue de la langue des signes à partir de vidéos (CSLR). Actuellement, une combinaison typique de réseaux pour la CSLR comprend un module visuel, qui se concentre sur les informations spatiales et temporelles courtes, suivi d’un module contextuel, qui se concentre sur les informations temporelles longues, tandis que la fonction de perte Connectionist Temporal Classification (CTC) est utilisée pour entraîner le réseau. Toutefois, en raison de la limitation des règles en chaîne dans la rétropropagation, il est difficile d’ajuster le module visuel afin d’optimiser les caractéristiques visuelles. Par conséquent, cela oblige le module contextuel à se concentrer uniquement sur l’optimisation des informations contextuelles, au détriment d’un équilibre efficace entre les informations visuelles et contextuelles. Dans cet article, nous proposons une méthode de distillation de connaissance mutuelle auto-entretenue (SMKD), qui pousse les modules visuel et contextuel à se concentrer respectivement sur les informations à court terme et à long terme, tout en renforçant simultanément leur pouvoir discriminant. Plus précisément, les modules visuel et contextuel partagent les poids de leurs classificateurs correspondants et sont entraînés simultanément avec la perte CTC. En outre, le phénomène de pics est fréquemment observé avec la perte CTC. Bien qu’il puisse nous aider à sélectionner quelques cadres clés d’un gloss, il entraîne aussi la perte d’autres cadres au sein d’un même gloss, provoquant une saturation des caractéristiques visuelles en phase précoce. Pour atténuer ce phénomène de pics et réduire la saturation dans le module visuel, nous introduisons une segmentation des gloss. Nous menons des expériences sur deux benchmarks de CSLR : PHOENIX14 et PHOENIX14-T. Les résultats expérimentaux démontrent l’efficacité de la méthode SMKD.