إلى الإجابة المتخصصة على الأسئلة الطبية باستخدام نماذج اللغة الكبيرة

لقد وصلت الأنظمة الحديثة للذكاء الاصطناعي إلى مراحل مهمة في ما يُعرف بـ"التحديات الكبرى"، التي تمتد من لعبة غو إلى طيّ البروتينات. واعتُبرت القدرة على استرجاع المعرفة الطبية، والاستدلال عليها، والإجابة على الأسئلة الطبية بمستوى مماثل للأطباء، منذ فترة طويلة واحدة من هذه التحديات الكبرى.لقد ساهمت النماذج اللغوية الكبيرة (LLMs) بشكل كبير في التقدم المحرز في إجابة الأسئلة الطبية؛ إذ كان Med-PaLM أول نموذج يتجاوز "الحد الأدنى للنجاح" في أسئلة مشابهة لاختبار الترخيص الطبي الأمريكي (USMLE)، حيث حقق معدل نجاح قدره 67.2٪ في مجموعة بيانات MedQA. ومع ذلك، أشارت هذه الدراسات ودراسات سابقة إلى وجود مجال واسع للتحسين، خاصة عند مقارنة إجابات النماذج بالإجابات التي يُقدّمها الأطباء السريريون. وهنا نقدّم Med-PaLM 2، الذي يُغلق هذه الفجوات من خلال دمج تحسينات في النموذج الأساسي (PaLM 2)، وتدريبًا دقيقًا على المجال الطبي، واستراتيجيات توجيهية، بما في ذلك منهجية جديدة للتحسين المُجمّع (ensemble refinement).حقق Med-PaLM 2 معدلات تصل إلى 86.5٪ في مجموعة بيانات MedQA، ما يُعد تحسنًا يزيد عن 19٪ مقارنةً بـ Med-PaLM، ويُشكّل حالة جديدة من التقدم المُتفوّق في هذا المجال. كما لاحظنا أداءً يقترب من أو يتجاوز الحد الأقصى المُحقّق في مجموعات بيانات مثل MedMCQA وPubMedQA وMMLU في المواضيع السريرية.أجرينا تقييمات بشرية مفصلة على أسئلة طويلة الشكل من خلال محاور متعددة ذات صلة بالتطبيقات السريرية. وفي التقييم المقارن الثنائي لـ 1066 سؤالًا طبيًا من المستهلكين، أعطى الأطباء تفضيلهم لإجابات Med-PaLM 2 على إجابات الأطباء نفسها في ثمانية من أصل تسعة محاور تتعلق بالفائدة السريرية (p < 0.001). كما لاحظنا تحسينات كبيرة مقارنةً بـ Med-PaLM على كل محاور التقييم (p < 0.001) في مجموعات بيانات جديدة مكوّنة من 240 سؤالًا طويلًا "مُعاكِسًا" تم إعدادها لاختبار حدود النماذج اللغوية الكبيرة.رغم الحاجة إلى مزيد من الدراسات لتأكيد فعالية هذه النماذج في البيئات الواقعية، فإن هذه النتائج تُبرز تقدّمًا سريعًا نحو تحقيق أداء يُعادل أداء الأطباء في مجال إجابة الأسئلة الطبية.