HyperAIHyperAI
منذ 16 أيام

هل يمكن نماذج اللغة الكبيرة التفكير في الأسئلة الطبية؟

Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, Ole Winther
هل يمكن نماذج اللغة الكبيرة التفكير في الأسئلة الطبية؟
الملخص

على الرغم من أن النماذج اللغوية الكبيرة (LLMs) تُنتج غالبًا نتائج مذهلة، إلا أن أداءها في السيناريوهات الواقعية التي تتطلب مهارات استدلال قوية ومعرفة متخصصة لا يزال غير واضح. قمنا بدراسة ما إذا كان من الممكن تطبيق النماذج المغلقة والمنفتحة المصدر (مثل GPT-3.5 وLLama-2) للإجابة على أسئلة معقدة قائمة على الواقع وتمكينها من التفكير فيها. ركزنا على ثلاث معايير طبية شهيرة (MedQA-USMLE وMedMCQA وPubMedQA) وعلى عدة سيناريوهات توجيهية: التفكير المتسلسل (Chain-of-Thought أو CoT، أي التفكير خطوة بخطوة)، ونماذج قليلة الأمثلة (few-shot)، والتعزيز باستخدام الاسترجاع (retrieval augmentation). وباستنادًا إلى تقييم خبرائي للنماذج المولدة من خلال CoT، وجدنا أن InstructGPT يمكنه غالبًا قراءة المعلومات، واستنتاجها، واسترجاع المعرفة الخبرية. وأخيرًا، وباستخدام التطورات في هندسة التوجيه (باستخدام طرق القليل من الأمثلة والطرق المتعددة المجمعة)، أظهرنا أن GPT-3.5 لا يُنتج فقط توزيعات تنبؤية مُحدَّدة بدقة، بل يحقق أيضًا الدرجة المطلوبة للنجاح في ثلاث مجموعات بيانات: MedQA-USMLE بنسبة 60.2%، وMedMCQA بنسبة 62.7%، وPubMedQA بنسبة 78.2%. وتتقلص الفجوة تدريجيًا بين النماذج المفتوحة المصدر: فقد نجح نموذج Llama-2 بسعة 70 مليار معلمة في اجتياز اختبار MedQA-USMLE بنسبة دقة 62.5%.