HyperAIHyperAI
il y a 16 jours

ThaiLMCut : Pré-entraînement non supervisé pour la segmentation des mots thaïs

{Hinrich Sch{\u}tze, Michael Matuschek, Liliana Mamani Sanchez, Ivan Bilan, Suteera Seeha, Johannes Huber}
ThaiLMCut : Pré-entraînement non supervisé pour la segmentation des mots thaïs
Résumé

Nous proposons ThaiLMCut, une approche semi-supervisée pour la segmentation des mots en thaï, qui exploite un modèle linguistique à caractères bidirectionnel (LM) afin de tirer parti de connaissances linguistiques utiles issues de données non étiquetées. Après avoir été entraîné sur de grandes corpora non étiquetés, le modèle linguistique transfère les poids de ses couches d’embedding et récurrentes vers un modèle supervisé de segmentation des mots, qui poursuit l’ajustement fin sur une tâche de segmentation. Nos résultats expérimentaux démontrent que l’application du LM conduit toujours à une amélioration des performances, en particulier lorsque la quantité de données étiquetées est faible. Dans ces cas, le score F1 augmente jusqu’à 2,02 %. Même sur un grand ensemble de données étiquetées, une légère amélioration reste observable. L’approche s’est également révélée particulièrement bénéfique dans des contextes hors domaine, avec une augmentation du score F1 pouvant atteindre 3,13 %. Enfin, nous montrons que ThaiLMCut peut surpasser d’autres modèles d’état de l’art open source, atteignant un score F1 de 98,78 % sur la référence standard InterBEST2009.

ThaiLMCut : Pré-entraînement non supervisé pour la segmentation des mots thaïs | Articles de recherche récents | HyperAI