Command Palette
Search for a command to run...

الملخص
مع تطور النماذج اللغوية الكبيرة (LLMs) في القدرات التفاعلية والاستدلالية، أصبح تطبيقها العملي في مجال الرعاية الصحية محورًا بحثيًا حيويًا. ومع ذلك، توجد فجوة ملحوظة بين أداء النماذج الطبية من نوع LLM في الاختبارات الثابتة، مثل امتحان USMLE، وفعاليتها في اتخاذ القرارات السريرية الواقعية. وتنجم هذه الفجوة عن عدم قدرة الامتحانات التقليدية على التقاط الطبيعة الديناميكية والتفاعلية للجلسات الطبية. ولحل هذه التحديات، نقدّم إطارًا تحققًا ديناميكيًا جديدًا يتجاوز أنظمة التحقق من الإجابات الثابتة، ويُنشئ نظامًا متكاملًا على نطاق واسع، مُعدّلًا بدقة، لتعلم التقويم التفاعلي. يتكون إطارنا من مكوّنين رئيسيين: أولًا، مُحاكي المريض (Patient Simulator) الذي يُنشئ بيئات سريرية واقعية باستخدام سجلات طبية مُستخلصة من هوية المريض (de-identified medical records)، وثانيًا، مُولّد معايير التقييم السريرية (Clinical Rubrics Generator) الذي يُنتج تلقائيًا مقاييس تقييم متعددة الأبعاد. وباستناد إلى هذه البنية التحتية، نطوّر نموذج Baichuan-M2، وهو نموذج مُحسّن للتفكير الطبي يحتوي على 32 مليار معلمة، تم تدريبه باستخدام استراتيجية تعلم مُعزّز متعددة المراحل مع خوارزمية مُحسّنة لتحسين السياسة النسبية المجموعة (GRPO). وعند تقييمه على منصة HealthBench، تفوّق Baichuan-M2 على جميع النماذج المفتوحة المصدر الأخرى، وكذلك على معظم النماذج المغلقة المتقدمة، محقّقًا درجة تفوق 32 في اختبار HealthBench Hard الصعب – وهو ما كان مُحقّقًا سابقًا فقط من قبل GPT-5. وتُظهر نتائج عملنا أن وجود نظام تحقق ديناميكي قوي أمر ضروري لتوحيد قدرات النماذج اللغوية الكبيرة مع التطبيقات السريرية الواقعية، مُحدثًا حدًا جديدًا في منحنى التوازن بين الأداء وعدد المعلمات في تطبيق الذكاء الاصطناعي الطبي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.