معيار يقيّم أداء الذكاء الاصطناعي للنصوص السريرية بتسع لغات
أعلن باحثون في مختبرات ماساتشوستس جنرال بريغهام عن إطلاق إطار عمل جديد لتقييم الذكاء الاصطناعي يحمل اسم BRIDGE، والذي نُشرت نتائجه في دورية نيتشر بيوميديكال إنجينيرينغ عام 2026. يهدف هذا المعيار متعدد اللغات إلى قياس مدى قدرة النماذج اللغوية الكبيرة على فهم النصوص السريرية وسجلات المرضى الإلكترونية في تسع لغات مختلفة، بما يعكس تعقيد الممارسة الطبية الواقعية بدقة. يأتي تطوير BRIDGE كرد فعل على محدودية المنهجيات التقليدية التي تعتمد بشكل أساسي على أسئلة الامتحانات الطبية المعيارية، والتي قد لا تعكس التعقيد اللغوي والسياقي للتفاعلات الطبية الفعلية. طوّر الفريق، بقيادة الدكتور جيه يانغ والدكتور جوشوا لين، إطار تقييم يستخدم بيانات سريرية حقيقية من سجلات المرضى والتقارير الطبية ومناقشات الأطباء مع المرضى. أظهرت الاختبارات الأولية فجوة واضحة بين الأداء النظري والعملي، حيث حققت أفضل النماذج اللغوية الكبرى درجة 92 في الامتحانات المعيارية، لكنها انخفضت إلى 44.8 في المئة فقط عند تقييم قدرتها على استيعاب اللغة السريرية الدقيقة داخل بيئة الرعاية الصحية. شملت الدراسة تقييماً منهجياً لأكثر من 95 نموذجاً لغياً ضخماً من 59 مصدراً مختلفاً، وتناولت مهام تمتد عبر رحلة المريض الكاملة، بما في ذلك التقييم الأولي، واستخراج المعلومات، والتشخيص، والتنبؤ بالنتائج، وترميز الفواتير الطبية عبر أربعة عشر تخصصاً طبياً. كما كشفت النتائج عن تفاوت ملحوظ في دقة أداء الذكاء الاصطناعي عبر التخصصات الطبية المختلفة. ولضمان الشفافية والتطوير المستمر، أتاح الفريق لوحة تصنيف علنية ومحدثة باستمرار، تستضيف حالياً 107 نموذج لغوي، مما يمكّن الأطباء ومطوري الذكاء الاصطناعي من مقارنة الأداء واختيار الأدوات الأنسب لكل سياق سريري. يبرز هذا الإطار دوراً جوهرياً في سد الفجوات اللغوية، إذ يتيح تقييم الأداء عبر تسع لغات مختلفة، مما يدعم تطوير أدوات ذكاء اصطناعي أكثر دقة وإنصافاً لمرضى لا يتحدثون الإنجليزية. يعكس هذا المشروع تحولاً جوهرياً في معايير تقييم النماذج الطبية، حيث ينقل محور التركيز من البيانات المعيارية إلى الانخراط المباشر مع تعقيدات السجلات السريرية الواقعية، مما يمهد الطريق لدمج أكثر أماناً وموثوقية لتقنيات الذكاء الاصطناعي في الممارسة السريرية اليومية.
