HyperAIHyperAI
il y a 3 mois

ViHealthBERT : Modèles de langage pré-entraînés pour le vietnamien dans l'extraction de connaissances à partir de textes médicaux

{Steven Quoc Hung, Trung Huu and Truong, Huy Duc and Bui, Vu and Ta, Vu Hoang and Hoang, Nguyen and Tran, Minh}
ViHealthBERT : Modèles de langage pré-entraînés pour le vietnamien dans l'extraction de connaissances à partir de textes médicaux
Résumé

Les modèles pré-entraînés de langage sont devenus essentiels pour obtenir des résultats compétitifs dans de nombreux problèmes de traitement du langage naturel (NLP). Pour les modèles pré-entraînés monolingues dans les langues à faibles ressources, la quantité de données disponibles a considérablement augmenté. Toutefois, la plupart de ces modèles concernent le domaine général, et il existe peu de modèles de base performants spécifiques à des domaines particuliers. Nous introduisons ViHealthBERT, le premier modèle pré-entraîné de langage spécifique au domaine pour le vietnamien dans le secteur de la santé. Les performances de notre modèle se distinguent nettement, surpassant tous les modèles généraux sur l’ensemble des jeux de données liés à la santé. En outre, nous présentons également deux jeux de données vietnamiens dédiés au domaine de la santé, pour les tâches d’ambiguïté des acronymes (AD) et de synthèse des questions fréquemment posées (FAQ). Nous mettons ViHealthBERT à disposition afin de faciliter les recherches futures et les applications descendantes en NLP vietnamien dans des domaines spécifiques.