CLUZH aux Tâches Partagées SIGMORPHON 2022 sur la segmentation morphémique et la génération d’inflection

Cet article décrit les soumissions de l’équipe du Département de linguistique computationnelle de l’Université de Zurich aux tâches partagées SIGMORPHON 2022 portant sur la segmentation morphémique et la génération d’inflection. Nos soumissions reposent sur un transducteur neuronal au niveau des caractères, opérant à l’aide d’actions d’édition classiques. Bien que ce modèle se soit révélé particulièrement adapté aux scénarios à faible ressource, son utilisation avec de grandes quantités de données s’est avérée difficile. Les implémentations existantes ne profitaient pas pleinement de l’accélération GPU et ne mettaient pas efficacement en œuvre l’apprentissage par mini-batch, ce qui s’avère complexe pour un système fondé sur une transition. Pour cette année, nous avons transféré le transducteur neuronal vers PyTorch et implémenté un apprentissage par mini-batch véritable. Cette amélioration a permis de faire évoluer de manière efficace notre approche à grande échelle, permettant ainsi des expérimentations approfondies. Nous rapportons des résultats compétitifs en segmentation morphémique (notamment une co-remise en tête pour la partie 2 du défi). Nous montrons également que réduire la segmentation morphémique au niveau de la phrase à un problème au niveau du mot constitue une stratégie simple mais efficace. En outre, nous obtenons des résultats solides en génération d’inflection (meilleur résultat global pour les grands jeux de données d’entraînement dans la partie 1, meilleurs résultats sur les trajectoires d’apprentissage à faible ressource dans la partie 2). Notre code est disponible publiquement.