MedConceptsQA: معيار مفاهيم طبية مفتوح المصدر للأسئلة والأجوبة

نقدّم MedConceptsQA، معيارًا مفتوح المصدر مخصصًا لاختبار فهم المفاهيم الطبية من خلال الإجابة على الأسئلة. يتكوّن هذا المعيار من أسئلة متعددة حول مفاهيم طبية مختلفة ضمن مفردات متنوعة: التشخيصات، الإجراءات، والأدوية. وتصنّف الأسئلة إلى ثلاث مستويات من الصعوبة: سهلة، متوسطة، وصعبة. قمنا بتقييم هذا المعيار باستخدام نماذج لغوية كبيرة مختلفة. وقد أظهرت النتائج أن النماذج الكبيرة المُدرّبة مسبقًا على بيانات طبية لم تحقق دقةً تقترب من التخمين العشوائي في هذا المعيار، رغم تدريبها على بيانات طبية. ومع ذلك، حقّق نموذج GPT-4 تحسّنًا متوسّطًا مطلقًا قدره ما بين 27% إلى 37% مقارنةً بالنماذج الطبية الكبيرة (27% في سيناريو التعلم من صفر، و37% في سيناريو التعلم بعينات قليلة). يُعدّ هذا المعيار موردًا قيمًا لتقييم فهم وتميّز النماذج الكبيرة للغة في المفاهيم الطبية. يمكن الوصول إلى المعيار عبر الرابط التالي: https://huggingface.co/datasets/ofir408/MedConceptsQA