vor 3 Monaten

ViHealthBERT: Vortrainierte Sprachmodelle für Vietnamesisch im Bereich der Gesundheits-Textmining

{Steven Quoc Hung, Trung Huu and Truong, Huy Duc and Bui, Vu and Ta, Vu Hoang and Hoang, Nguyen and Tran, Minh}

Details der Forschungsarbeit anzeigen View Code

ViHealthBERT: Vortrainierte Sprachmodelle für Vietnamesisch im Bereich der Gesundheits-Textmining

Abstract

Vortrainierte Sprachmodelle sind zu einem entscheidenden Faktor für die Erreichung wettbewerbsfähiger Ergebnisse bei zahlreichen Aufgaben im Bereich des Natural Language Processing (NLP) geworden. Bei monolingualen vortrainierten Modellen für sprachlich unterversorgte Sprachen hat sich die Anzahl signifikant erhöht. Allerdings beziehen sich die meisten dieser Modelle auf den allgemeinen Domänenbereich, während starke Baseline-Modelle für spezifische Domänen noch immer begrenzt vorhanden sind. Wir stellen ViHealthBERT vor, das erste domänen-spezifische vortrainierte Sprachmodell für die vietnamesische Sprache im Gesundheitsbereich. Unsere Ergebnisse zeigen, dass das Modell in allen gesundheitsbezogenen Datensätzen über allgemeine Domänenmodelle hinausgeht. Darüber hinaus präsentieren wir auch vietnamesische Datensätze für den Gesundheitsbereich für zwei Aufgaben: Akronym-Ambiguitätsauflösung (AD) und Zusammenfassung von häufig gestellten Fragen (FAQ). Wir stellen ViHealthBERT öffentlich zur Verfügung, um zukünftige Forschung und Anwendungen im Bereich des vietnamesischen NLP in domänen-spezifischen Kontexten zu fördern.