Caractéristiques enrichies par Morfessor et formation multilingue pour la segmentation morphologique canonique

Dans notre soumission à la tâche partagée SIGMORPHON 2022 sur la segmentation morphémique, nous étudions si une méthode non supervisée de segmentation morphologique, Morfessor, peut être bénéfique dans un cadre supervisé. Des travaux antérieurs ont démontré l’efficacité de cette approche dans des contextes semi-supervisés, notamment avec de faibles quantités de données étiquetées. Les tâches actuelles varient quant à la taille des données : la quantité de données d’entraînement étiquetées au niveau mot est considérablement plus grande, mais celle des données étiquetées au niveau phrase reste faible. Notre approche consiste à pré-segmenter les données d’entrée d’un modèle séquentiel à séquence (sequence-to-sequence) à l’aide de la méthode non supervisée. Étant donné que cette méthode peut être entraînée sur des données textuelles brutes, nous utilisons Wikipedia afin d’augmenter la quantité de données d’entraînement. En outre, nous entraînons des modèles multilingues pour la tâche au niveau phrase. Les résultats obtenus avec les caractéristiques enrichies par Morfessor sont mitigés : ils montrent un avantage pour les trois tâches au niveau phrase, mais seulement pour certaines des tâches au niveau mot. L’entraînement multilingue permet d’obtenir des améliorations significatives par rapport aux modèles monolingues au niveau phrase, mais il annule l’effet des caractéristiques enrichies.