HyperAIHyperAI
il y a 2 mois

Reconnaissance d'entités nommées COVID-19 pour le vietnamien

Thinh Hung Truong; Mai Hoang Dao; Dat Quoc Nguyen
Reconnaissance d'entités nommées COVID-19 pour le vietnamien
Résumé

La pandémie actuelle de COVID-19 a conduit à la création de nombreux corpus qui facilitent la recherche en traitement automatique du langage naturel (TALN) et les applications dérivées pour aider à lutter contre la pandémie. Cependant, la plupart de ces corpus sont exclusivement destinés à l'anglais. Étant donné que la pandémie est un problème mondial, il est pertinent de créer des jeux de données liés au COVID-19 pour d'autres langues que l'anglais. Dans cet article, nous présentons le premier jeu de données spécifique au domaine du COVID-19 annoté manuellement pour le vietnamien. Plus particulièrement, notre jeu de données est annoté pour la tâche de reconnaissance d'entités nommées (NER) avec des types d'entités nouvellement définis qui peuvent être utilisés dans d'autres épidémies futures. Notre jeu de données contient également le plus grand nombre d'entités par rapport aux jeux de données existants pour la NER en vietnamien. Nous menons empiriquement des expériences en utilisant des modèles basiques robustes sur notre jeu de données et constatons que : le segmenteur automatique de mots vietnamiens aide à améliorer les résultats de la NER et les meilleures performances sont obtenues par le réglage fin (fine-tuning) des modèles linguistiques pré-entraînés, où le modèle monolingue PhoBERT pour le vietnamien (Nguyen et Nguyen, 2020) produit des résultats supérieurs à ceux du modèle multilingue XLM-R (Conneau et al., 2020). Nous mettons notre jeu de données à disposition publiquement sur : https://github.com/VinAIResearch/PhoNER_COVID19

Reconnaissance d'entités nommées COVID-19 pour le vietnamien | Articles de recherche récents | HyperAI