Augmentation de données à cross-modal pour la traduction de langues des signes en bout-en-bout

La traduction bout-en-bout de la langue des signes (SLT) vise à convertir directement des vidéos de langue des signes en textes linguistiques parlés, sans passer par des représentations intermédiaires. Ce task s’avère particulièrement difficile en raison du fossé modal entre les vidéos de signes et les textes, ainsi que de la rareté des données étiquetées. En raison de ces défis, les distributions d’entrée et de sortie dans la traduction bout-en-bout de la langue des signes (c’est-à-dire vidéo → texte) sont moins efficaces que celles du modèle gloss → texte (c’est-à-dire texte → texte). Pour relever ces défis, nous proposons un cadre novateur de mise en œuvre de données à travers les modalités, nommé XmDA (Cross-modality Data Augmentation), qui transfère les capacités puissantes de traduction gloss → texte vers la traduction bout-en-bout de la langue des signes (c’est-à-dire vidéo → texte), en exploitant des paires pseudo-gloss-texte issues d’un modèle de traduction des gloss. Plus précisément, XmDA repose sur deux composants clés : la mix-up à travers les modalités et la distillation de connaissance à travers les modalités. Le premier encourage explicitement l’alignement entre les caractéristiques des vidéos de signes et les embeddings des gloss, afin de réduire le fossé modal. Le second utilise les connaissances de génération provenant de modèles enseignants gloss → texte pour guider la génération des textes linguistiques parlés. Les résultats expérimentaux sur deux jeux de données largement utilisés en SLT, à savoir PHOENIX-2014T et CSL-Daily, démontrent que le cadre XmDA proposé surpasse de manière significative et cohérente les modèles de base. Des analyses approfondies confirment notre hypothèse selon laquelle XmDA améliore la génération de textes linguistiques en réduisant la distance de représentation entre vidéos et textes, tout en renforçant le traitement des mots peu fréquents et des phrases longues.