ViHealthBERT: Vortrainierte Sprachmodelle für Vietnamesisch im Bereich der Gesundheits-Textmining

Vortrainierte Sprachmodelle sind zu einem entscheidenden Faktor für die Erreichung wettbewerbsfähiger Ergebnisse bei zahlreichen Aufgaben im Bereich des Natural Language Processing (NLP) geworden. Bei monolingualen vortrainierten Modellen für sprachlich unterversorgte Sprachen hat sich die Anzahl signifikant erhöht. Allerdings beziehen sich die meisten dieser Modelle auf den allgemeinen Domänenbereich, während starke Baseline-Modelle für spezifische Domänen noch immer begrenzt vorhanden sind. Wir stellen ViHealthBERT vor, das erste domänen-spezifische vortrainierte Sprachmodell für die vietnamesische Sprache im Gesundheitsbereich. Unsere Ergebnisse zeigen, dass das Modell in allen gesundheitsbezogenen Datensätzen über allgemeine Domänenmodelle hinausgeht. Darüber hinaus präsentieren wir auch vietnamesische Datensätze für den Gesundheitsbereich für zwei Aufgaben: Akronym-Ambiguitätsauflösung (AD) und Zusammenfassung von häufig gestellten Fragen (FAQ). Wir stellen ViHealthBERT öffentlich zur Verfügung, um zukünftige Forschung und Anwendungen im Bereich des vietnamesischen NLP in domänen-spezifischen Kontexten zu fördern.