تقييم أداء النموذج اللغوي الكبير على معيار فهم اللغة والاستنتاج الطبي

الخلفية: إن قدرة النماذج اللغوية الكبيرة (LLMs) على فهم وتحرير النصوص المشابهة للإنسان قد رافقتها تكهنات حول تطبيقاتها في الطب والأبحاث السريرية. ومع ذلك، تظل البيانات المتاحة محدودة لدعم اتخاذ قرارات قائمة على الأدلة بشأن ملاءمة استخدامها في حالات محددة.الطرق: قمنا بتقييم ومقارنة أربع نماذج لغوية عامة (GPT-4، GPT-3.5-turbo، Flan-T5-XXL، وZephyr-7B-Beta) ونموذجًا لغويًا متخصصًا في المجال الصحي (MedLLaMA-13B) على مجموعة من 13 مجموعة بيانات – تُعرف بـ "مقياس التفاهم والاستدلال اللغوي الحيوي" (BLURB) – التي تغطي ستة مهام شائعة في معالجة اللغة الطبية: التعرف على الكيانات المحددة (NER)، استخراج العلاقات، معايير PICO (السكان، التدخلات، المقارنات، والنتائج)، تشابه الجمل، تصنيف الوثائق، والإجابة على الأسئلة. تم تقييم جميع النماذج دون أي تعديل. وتم تقييم أداء النماذج وفقًا لمجموعة من استراتيجيات التحفيز (مُنظمة بشكل منهجي وقابلة لإعادة الاستخدام)، مع الاعتماد على مقاييس التقييم القياسية المحددة مسبقًا لكل مهمة حسب معيار BLURB.النتائج: على جميع المهام، تفوق GPT-4 على النماذج الأخرى، يليه Flan-T5-XXL وGPT-3.5-turbo، ثم Zephyr-7B-Beta وMedLLaMA-13B. وقد تفوقت أفضل استراتيجيات التحفيز المُستخدمة مع GPT-4 وFlan-T5-XXL على النتائج السابقة الأفضل المُبلغ عنها في مهمة PubMedQA. وحققت النموذج المتخصص في المجال الصحي MedLLaMA-13B درجات أقل في معظم المهام، باستثناء مهام الإجابة على الأسئلة. ولاحظنا تأثيرًا كبيرًا لتعديل استراتيجي للنص التحفيزي الذي يصف المهمة، كما لاحظنا تحسنًا مستمرًا في الأداء عند تضمين أمثلة ذات صلة معنوية بالنص المدخل داخل النص التحفيزي.الاستنتاج: تقدم هذه النتائج أدلة على الإمكانات التي قد تمتلكها النماذج اللغوية الكبيرة في التطبيقات الطبية، وتُبرز أهمية التقييم القوي قبل اعتماد هذه النماذج لأي حالة استخدام محددة. سيظل من الضروري الاستمرار في استكشاف كيفية تكييف هذه التقنيات الناشئة لتناسب البيئة الصحية، مع دمج الخبرة البشرية، وتعزيزها من خلال إجراءات ضمان الجودة، وذلك كجزء من بحوث حيوية تُمكّن من الابتكار المسؤول باستخدام النماذج اللغوية الكبيرة في المجال الطبي.