
要約
事前学習済み言語モデルは、自然言語処理(NLP)の多くの課題において競争力のある成果を達成する上で不可欠な存在となっている。低リソース言語における単言語事前学習モデルの数は著しく増加しているが、その多くは一般ドメインに限定されており、ドメイン特化型の強力なベースライン言語モデルは依然として限られている。本研究では、ベトナム語医療分野を対象とした初のドメイン特化型事前学習言語モデル「ViHealthBERT」を提案する。本モデルは、すべての医療関連データセットにおいて、一般ドメイン言語モデルを上回る優れた性能を示している。さらに、本研究では、アクリニムの意味解消(Acronym Disambiguation, AD)およびよくある質問(Frequently Asked Questions, FAQ)の要約という2つのタスクを対象としたベトナム語医療ドメインデータセットを提供する。ViHealthBERTを公開することで、ベトナム語NLPにおけるドメイン特化型研究および下流タスクへの応用を促進することを目的としている。