HyperAIHyperAI
vor 2 Monaten

COVID-19 Named Entity Recognition für Vietnamesisch

Thinh Hung Truong; Mai Hoang Dao; Dat Quoc Nguyen
COVID-19 Named Entity Recognition für Vietnamesisch
Abstract

Die aktuelle COVID-19-Pandemie hat zur Erstellung zahlreicher Korpora geführt, die NLP-Forschung und nachgelagerte Anwendungen fördern, um der Pandemie entgegenzuwirken. Dennoch sind die meisten dieser Korpora ausschließlich für das Englische bestimmt. Da die Pandemie ein globales Problem darstellt, ist es sinnvoll, COVID-19-bezogene Datensätze für Sprachen außer dem Englischen zu erstellen. In dieser Arbeit präsentieren wir den ersten manuell annotierten, domänenspezifischen Datensatz für das Vietnamitische im Bereich COVID-19. Insbesondere ist unser Datensatz für die Aufgabe der Named Entity Recognition (NER) mit neu definierten Entitätstypen annotiert, die auch in zukünftigen Epidemien eingesetzt werden können. Unser Datensatz enthält auch die größte Anzahl von Entitäten im Vergleich zu bereits existierenden vietnamesischen NER-Datensätzen. Wir führen experimentell Tests unter Verwendung starker Baseline-Modelle auf unserem Datensatz durch und stellen fest, dass: automatische vietnamesische Wortsegmentierung dazu beiträgt, die Ergebnisse der NER zu verbessern, und die besten Leistungen durch das Feinjustieren vortrainierter Sprachmodelle erzielt werden, wobei das monolinguale Modell PhoBERT für Vietnamitisch (Nguyen und Nguyen, 2020) bessere Ergebnisse als das multilinguale Modell XLM-R (Conneau et al., 2020) liefert. Wir veröffentlichen unseren Datensatz öffentlich unter: https://github.com/VinAIResearch/PhoNER_COVID19

COVID-19 Named Entity Recognition für Vietnamesisch | Neueste Forschungsarbeiten | HyperAI