il y a 17 jours

Réseaux Transformer stochastiques à unités concurrentes linéaires : application à la traduction SL en bout en bout

Andreas Voskou, Konstantinos P. Panousis, Dimitrios Kosmopoulos, Dimitris N. Metaxas, Sotirios Chatzis

Résumé

La traduction automatique de la langue des signes (SLT) constitue une application réelle aux enjeux sociétaux majeurs, mais dont les progrès scientifiques restent limités. En particulier, les méthodes existantes offrant des performances satisfaisantes exigent la disponibilité d’étiquettes de séquences de glosses, difficiles à obtenir. Dans cet article, nous atténuons cette contrainte en introduisant un modèle de SLT end-to-end qui ne requiert pas l’utilisation explicite de glosses : le modèle n’a besoin que de vérités terrain textuelles. Cette approche se distingue nettement des modèles end-to-end existants, qui reposent sur des étiquettes de séquences de glosses, soit comme modalité reconnue à une étape intermédiaire du modèle, soit comme sortie parallèle entraînée conjointement avec le modèle de SLT. Notre méthode repose sur un réseau Transformer doté de nouveaux types de couches combinant : (i) des couches locales winner-takes-all (LWTA) avec échantillonnage stochastique du gagnant, à la place des couches ReLU classiques ; (ii) des poids stochastiques dont les distributions a posteriori sont estimées par inférence variationnelle ; et (iii) une technique de compression des poids en phase d’inférence, exploitant la variance a posteriori estimée pour réaliser une compression massive, presque sans perte. Nous démontrons que notre approche atteint le meilleur score BLEU-4 rapporté à ce jour sur le benchmark PHOENIX 2014T, sans utiliser de glosses lors de l’entraînement, tout en réduisant de plus de 70 % la taille mémoire du modèle.