SubUNets : Reconnaissance d'Forme de Main et de Langue des Signes Continue en Approche End-to-End

Nous proposons une nouvelle approche d'apprentissage profond pour résoudre les problèmes de reconnaissance et d'alignement simultanés (dénommés apprentissage « séquence-à-séquence »). Nous décomposons ce problème en une série de systèmes experts spécialisés, appelés SubUNets. Les relations spatio-temporelles entre ces SubUNets sont ensuite modélisées afin de résoudre la tâche, tout en conservant la possibilité d'un apprentissage end-to-end. Cette approche imite les mécanismes d'apprentissage humain et les techniques éducatives, offrant plusieurs avantages significatifs. Les SubUNets permettent d'intégrer des connaissances experts spécifiques au domaine concernant les représentations intermédiaires appropriées. Ils permettent également d'effectuer implicitement un transfert d'apprentissage entre différentes tâches interdépendantes, ce qui facilite l'exploitation d'une plus grande variété de sources de données. Dans nos expériences, nous démontrons que chacune de ces propriétés contribue de manière significative à améliorer les performances du système global de reconnaissance, en restreignant plus efficacement le problème d'apprentissage. Les techniques proposées sont évaluées dans le domaine exigeant de la reconnaissance des langues des signes. Nous atteignons des résultats de pointe en reconnaissance de la forme des mains, dépassant les méthodes antérieures de plus de 30 %. En outre, nous obtenons des taux de reconnaissance des signes comparables à ceux des travaux antérieurs, sans nécessiter d'étape d'alignement pour segmenter les signes avant reconnaissance.