هل يمكن نماذج اللغة الكبيرة التفكير في الأسئلة الطبية؟

على الرغم من أن النماذج اللغوية الكبيرة (LLMs) تُنتج غالبًا نتائج مذهلة، إلا أن أداءها في السيناريوهات الواقعية التي تتطلب مهارات استدلال قوية ومعرفة متخصصة لا يزال غير واضح. قمنا بدراسة ما إذا كان من الممكن تطبيق النماذج المغلقة والمنفتحة المصدر (مثل GPT-3.5 وLLama-2) للإجابة على أسئلة معقدة قائمة على الواقع وتمكينها من التفكير فيها. ركزنا على ثلاث معايير طبية شهيرة (MedQA-USMLE وMedMCQA وPubMedQA) وعلى عدة سيناريوهات توجيهية: التفكير المتسلسل (Chain-of-Thought أو CoT، أي التفكير خطوة بخطوة)، ونماذج قليلة الأمثلة (few-shot)، والتعزيز باستخدام الاسترجاع (retrieval augmentation). وباستنادًا إلى تقييم خبرائي للنماذج المولدة من خلال CoT، وجدنا أن InstructGPT يمكنه غالبًا قراءة المعلومات، واستنتاجها، واسترجاع المعرفة الخبرية. وأخيرًا، وباستخدام التطورات في هندسة التوجيه (باستخدام طرق القليل من الأمثلة والطرق المتعددة المجمعة)، أظهرنا أن GPT-3.5 لا يُنتج فقط توزيعات تنبؤية مُحدَّدة بدقة، بل يحقق أيضًا الدرجة المطلوبة للنجاح في ثلاث مجموعات بيانات: MedQA-USMLE بنسبة 60.2%، وMedMCQA بنسبة 62.7%، وPubMedQA بنسبة 78.2%. وتتقلص الفجوة تدريجيًا بين النماذج المفتوحة المصدر: فقد نجح نموذج Llama-2 بسعة 70 مليار معلمة في اجتياز اختبار MedQA-USMLE بنسبة دقة 62.5%.