ViHealthBERT: نماذج لغة مُدرَّبة مسبقًا للغة الفيتنامية في استخراج النصوص الصحية

أصبحت النماذج اللغوية المُدرَّبة مسبقًا حاسمة لتحقيق نتائج تنافسية في العديد من مسائل معالجة اللغة الطبيعية (NLP). مع زيادة كمية النماذج اللغوية المُدرَّبة مسبقًا للغات أحادية اللغة في اللغات ذات الموارد المحدودة، لا يزال معظمها مرتبطًا بالنطاق العام، وتمتد قلة النماذج القوية القائمة كأساس معياري للنطاقات المتخصصة. نقدم ViHealthBERT، وهي أول نموذج لغوي مُدرَّب مسبقًا مخصصًا للنطاق الصحي باللغة الفيتنامية. تُظهر أداء نموذجنا نتائج قوية، وتتفوق على النماذج اللغوية العامة في جميع مجموعات البيانات المتعلقة بالصحة. علاوةً على ذلك، نُقدِّم أيضًا مجموعات بيانات فيتنامية للنطاق الصحي لمهامتين: توضيح الاختصارات (AD) وتلخيص الأسئلة الشائعة (FAQ). ونُطلق ViHealthBERT لتمكين الأبحاث المستقبلية والتطبيقات التالية في مجال معالجة اللغة الفيتنامية المتخصصة.