11일 전

ViHealthBERT: 건강 텍스트 마이닝을 위한 베트남어 사전 학습 언어 모델

{Steven Quoc Hung, Trung Huu and Truong, Huy Duc and Bui, Vu and Ta, Vu Hoang and Hoang, Nguyen and Tran, Minh}
ViHealthBERT: 건강 텍스트 마이닝을 위한 베트남어 사전 학습 언어 모델
초록

사전 훈련된 언어 모델은 자연어 처리(NLP) 분야에서 경쟁력 있는 성과를 달성하는 데 핵심적인 역할을 하고 있다. 저자원 언어의 단일 언어 사전 훈련 모델의 수는 크게 증가했지만, 대부분이 일반 도메인에 초점이 맞춰져 있으며, 특정 도메인에 적합한 강력한 베이스라인 언어 모델은 여전히 제한적이다. 본 연구에서는 베트남어 의료 분야를 위한 최초의 도메인 특화 사전 훈련 언어 모델인 ViHealthBERT를 제안한다. 제안한 모델은 모든 의료 관련 데이터셋에서 일반 도메인 언어 모델을 능가하는 뛰어난 성능을 보였다. 또한, 약어 해석(ACRONYM DISAMBIGUATION, AD)과 자주 묻는 질문(FREQUENTLY ASKED QUESTIONS, FAQ) 요약 두 가지 과제를 위한 베트남어 의료 도메인 데이터셋도 제시한다. ViHealthBERT 모델을 공개함으로써 베트남어 NLP 분야에서 특정 도메인에 대한 향후 연구 및 하류 응용을 촉진하고자 한다.

ViHealthBERT: 건강 텍스트 마이닝을 위한 베트남어 사전 학습 언어 모델 | 최신 연구 논문 | HyperAI초신경