HyperAIHyperAI

Command Palette

Search for a command to run...

ThaiLMCut : Pré-entraînement non supervisé pour la segmentation des mots thaïs

Hinrich Sch\utze Michael Matuschek Liliana Mamani Sanchez Ivan Bilan Suteera Seeha Johannes Huber

Résumé

Nous proposons ThaiLMCut, une approche semi-supervisée pour la segmentation des mots en thaï, qui exploite un modèle linguistique à caractères bidirectionnel (LM) afin de tirer parti de connaissances linguistiques utiles issues de données non étiquetées. Après avoir été entraîné sur de grandes corpora non étiquetés, le modèle linguistique transfère les poids de ses couches d’embedding et récurrentes vers un modèle supervisé de segmentation des mots, qui poursuit l’ajustement fin sur une tâche de segmentation. Nos résultats expérimentaux démontrent que l’application du LM conduit toujours à une amélioration des performances, en particulier lorsque la quantité de données étiquetées est faible. Dans ces cas, le score F1 augmente jusqu’à 2,02 %. Même sur un grand ensemble de données étiquetées, une légère amélioration reste observable. L’approche s’est également révélée particulièrement bénéfique dans des contextes hors domaine, avec une augmentation du score F1 pouvant atteindre 3,13 %. Enfin, nous montrons que ThaiLMCut peut surpasser d’autres modèles d’état de l’art open source, atteignant un score F1 de 98,78 % sur la référence standard InterBEST2009.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp