Au-delà des caractères : segmentation morphémique au niveau des sous-mots

Cet article présente les soumissions de DeepSPIN à la tâche partagée SIGMORPHON 2022 sur la segmentation morphémique. Nous présentons trois soumissions, toutes adressées à la sous-tâche au niveau des mots. Premièrement, nous montrons que les modèles séquence-à-séquence à faible densité basés sur entmax apportent des améliorations importantes par rapport aux modèles conventionnels basés sur softmax, confirmant ainsi des résultats observés sur d'autres tâches. Ensuite, nous remettons en question l'hypothèse selon laquelle les modèles destinés aux tâches morphologiques doivent être entraînés au niveau des caractères en concevant un modèle Transformer qui génère les morphèmes sous la forme de séquences de sous-mots induits par un modèle de langage unigramme. Ce Transformer basé sur les sous-mots surpasse tous nos modèles entraînés au niveau des caractères et remporte la sous-tâche au niveau des mots. Bien que nous n'ayons pas soumis une version officielle pour la sous-tâche au niveau des phrases, nous démontrons que cette approche basée sur les sous-mots s'avère tout aussi efficace dans ce contexte.