مجموعة بيانات معيارية لاختبار الكفاءة الطبية متعدد اللغات MMedBench
التاريخ
الحجم
رابط النشر
الترخيص
CC BY-NC-SA 3.0
* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.
MMedBench هي مجموعة بيانات شاملة لاختبار الكفاءة الطبية متعدد اللغات تم تطويرها بواسطة فريق الرعاية الصحية الذكية في كلية الذكاء الاصطناعي بجامعة شنغهاي جياو تونغ في عام 2024.نحو بناء نموذج لغوي متعدد اللغات للطبيهدف إلى تقييم تطور نماذج متعددة اللغات في المجال الطبي، تغطي 6 لغات و21 مجالًا فرعيًا طبيًا. جميع أسئلة MMedBench مستمدة مباشرةً من بنوك أسئلة الامتحانات الطبية في مختلف البلدان، مما يضمن دقة وموثوقية التقييم، ويجنب التحيز في فهم التشخيص الناتج عن اختلاف إرشادات الممارسة الطبية في مختلف البلدان.
يتضمن معيار التقييم بعدين رئيسيين للتقييم: دقة الاختيار وعقلانية التفسير. أثناء عملية التقييم، لا يحتاج النموذج إلى اختيار الإجابة الصحيحة فحسب، بل يجب عليه أيضًا تقديم تفسير معقول، وبالتالي اختبار قدرة النموذج على فهم وتفسير المعلومات الطبية المعقدة. تُظهر إحصائيات بيانات MMedBench الإحصائيات الرقمية الأساسية لمجموعة التدريب ومجموعة الاختبار، بالإضافة إلى توزيع العينات حول مواضيع مختلفة.
قام فريق البحث بتقييم نماذج اللغة الطبية السائدة على معيار MMedBench، بما في ذلك ثلاث استراتيجيات اختبار: Zero-shot، وPEFT Finetuning، وFull model Finetuning. وتظهر نتائج الاختبار أن النموذج المقترح يتفوق على نماذج المصدر المفتوح الموجودة من نفس المستوى في بعدين رئيسيين: دقة الاختيار وعقلانية التفسير، وهو قابل للمقارنة مع GPT-4. بالإضافة إلى ذلك، أجرى فريق البحث أيضًا تقييمًا يدويًا للتسجيل، حيث كان النموذج المقترح هو المفضل لدى المستخدمين البشر.
إن إطلاق MMedBench لا يعزز فقط الأبحاث النموذجية متعددة اللغات على نطاق واسع في المجال الطبي، بل يوفر أيضًا أدوات جديدة للممارسة السريرية، وخاصة إظهار الإمكانات الكبيرة في حل الحواجز اللغوية وعولمة الموارد الطبية. وقد أصبحت جميع البيانات والرموز مفتوحة المصدر، مما يعزز التعاون وتبادل التكنولوجيا بين مجتمع البحث العالمي.
