تطوير نماذج الإجابة على الأسئلة في اللغات ذات الموارد المحدودة: دراسة حالة على النصوص الطبية التركية باستخدام النهج القائمة على المحولات
في هذه الدراسة، تم تدريب نماذج اللغة المُدرّبة مسبقًا المستندة إلى المحولات (Transformer-based pre-trained language models) باستخدام نصوص طبية لمهام الإجابة على الأسئلة (QA) باللغة التركية، وهي لغة منخفضة الموارد. تم استخدام نماذج متنوعة من نموذج BERTurk المُدرّب مسبقًا، الذي تم إنشاؤه باستخدام مجموعة كبيرة من النصوص التركية، لأغراض مهام الإجابة على الأسئلة. وتُقدّم الدراسة مجموعة بيانات للإجابة على الأسئلة باللغة التركية في المجال الطبي، تم إنشاؤها باستخدام ويكيبيديا التركية والرسائل العلمية الطبية المتاحة في مركز الرسائل التابع للمجلس الأعلى للتعليم العالي في تركيا. وتضم هذه المجموعة ما مجموعه 8200 زوجًا من السؤال والإجابة، وتُستخدم لتدريب نموذج BERTurk. وقد تم تقييم أداء النماذج باستخدام معياري "التطابق الدقيق" (Exact Match - EM) و"دقة F1". وقد حقق نموذج BERTurk (مع الحروف الكبيرة، 32 ألفًا) نتيجة EM قدرها 51.097 ودقة F1 قدرها 74.148، بينما حقق نموذج BERTurk (مع الحروف الكبيرة، 128 ألفًا) نتيجة EM قدرها 55.121 ودقة F1 قدرها 77.187. وتُظهر النتائج أن النماذج المُدرّبة مسبقًا يمكن استخدامها بنجاح في مهام الإجابة على الأسئلة باللغات منخفضة الموارد مثل اللغة التركية. وتُعد هذه الدراسة أساسًا مهمًا لمعالجة النصوص الطبية باللغة التركية ومهام الإجابة التلقائية على الأسئلة، كما تُسلط الضوء على الاتجاهات المستقبلية في هذا المجال.