تنمذجات اللغة الكبيرة تُشفِّر المعرفة السريرية

أظهرت النماذج اللغوية الكبيرة (LLMs) قدرات مذهلة في فهم اللغة الطبيعية وإنتاجها، لكن معايير الجودة في التطبيقات الطبية والسريرية مرتفعة جدًا. في الوقت الحالي، تعتمد المحاولات لتقييم المعرفة السريرية للنماذج عادةً على تقييمات آلية محدودة على مجموعات بيانات محددة. لا توجد معايير موحدة لتقييم تنبؤات النموذج واستنتاجاته عبر طيف واسع من المهام. ولحل هذه المشكلة، نقدم "MultiMedQA"، وهو مجموعة بيانات معيارية تجمع ستة مجموعات بيانات مفتوحة موجودة مسبقًا لأسئلة الإجابة المفتوحة، تغطي امتحانات طبية احترافية، وأبحاث طبية، وأسئلة من المستخدمين العاديين؛ بالإضافة إلى "HealthSearchQA"، وهي مجموعة بيانات جديدة من الأسئلة الطبية التي تم البحث عنها عبر الإنترنت بشكل حر. نقترح إطارًا لتقييم إجابات النموذج من قبل البشر على محاور متعددة، تشمل الدقة الحقيقية، الدقة، الضرر المحتمل، والتحيّز. علاوةً على ذلك، قمنا بتقييم نموذج PaLM (نموذج لغوي كبير بـ 540 مليار معلمة) ونسخته المُدرَّبة على التعليمات، Flan-PaLM، على MultiMedQA. باستخدام مجموعة من استراتيجيات التحفيز (prompting)، حقق Flan-PaLM أفضل دقة محققة حتى الآن في كل مجموعة بيانات متعددة الخيارات ضمن MultiMedQA (MedQA، MedMCQA، PubMedQA، المواضيع السريرية في MMLU)، بما في ذلك دقة قدرها 67.6% في MedQA (أسئلة امتحان الترخيص الطبي الأمريكي)، متفوّقًا على الأفضلية السابقة بفارق أكثر من 17%. ومع ذلك، كشف التقييم البشري عن فجوات جوهرية في إجابات Flan-PaLM. ولحل هذه الفجوات، نقدّم "التعديل بالتحفيز التعليمي" (instruction prompt tuning)، وهو نهج فعّال من حيث المعلمات لتوحيد النماذج اللغوية الكبيرة مع مجالات جديدة باستخدام عدد قليل من الأمثلة. الناتج هو نموذج يُسمّى Med-PaLM، الذي أظهر أداءً واعدًا، لكنه ما زال يقل عن أداء الأطباء. ونُظهر أن فهم النموذج، وذاكرة التذكّر للمعرفة، والقدرة على الاستنتاج الطبي تتحسّن مع زيادة حجم النموذج وتطبيق التعديل بالتحفيز التعليمي، مما يوحي بإمكانية استخدام النماذج اللغوية الكبيرة في المجال الطبي. تُظهر تقييماتنا البشرية قيودًا مهمة في نماذج اليوم، مما يعزز أهمية تطوير إطارات تقييم وتقنيات جديدة لضمان إنشاء نماذج لغوية كبرى آمنة وفعّالة في التطبيقات السريرية.