بناء نموذج MLLM في طب العيون للتعاون بين التصنيف والتشخيص من خلال الاستدلال السببي للتفكير السريري

تُظهر نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إمكانات كبيرة في مجال التشخيص الطبي. ومع ذلك، تواجه تحديات جوهرية في المجالات المتخصصة مثل طب العيون، وخاصة تفتت تفاصيل التصنيف (annotation granularity) وعدم اتساق منطق الاستدلال السريري، مما يعيق الفهم الدقيق بين الوسائط. في هذا المقال، نقدم FundusExpert، وهو نموذج لغة كبيّر متعدد الوسائط مخصص لطب العيون، ويتميز بقدرات متكاملة على الاستدلال بين التصنيف والتحديد. كما نقدم FundusGen، وهو مجموعة بيانات تم بناؤها من خلال نظام Fundus-Engine الذكي. يقوم نظام Fundus-Engine بتحقيق التحديد التلقائي، ويفيد من توسيع المعاني المستند إلى نماذج اللغة الكبيرة لدمج تصنيف الأمراض على المستوى العالمي، وتحديد الكائنات المحلية، وتحليل الميزات الدقيقة ضمن صورة واحدة لشبكية العين. علاوة على ذلك، من خلال بناء سلسلة استدلال مُتوافقة مع السياق السريري، يوجه النظام النموذج لإنتاج مسارات استدلال قابلة للشرح. يحقق FundusExpert أداءً أفضل في مهام الإجابة على الأسئلة الطبية، حيث يتفوق على متوسط دقة نموذج MedRegA بحجم 40B بنسبة 26.6%. كما يتفوق بشكل كبير في مهام إنشاء التقارير الطبية بدون تدريب مسبق (zero-shot report generation)، حيث يصل التوافق السريري إلى 77.0%، متفوقًا بشكل كبير على GPT-4o الذي بلغ 47.6%. بالإضافة إلى ذلك، نكشف عن قانون توسعة (scaling law) بين جودة البيانات وقدرة النموذج، مما يدل على أن تسميات الاستدلال المُتوافقة مع السياق السريري تحسّن كفاءة استخدام البيانات. من خلال دمج تحديد المناطق على المستوى المحلي مع سلاسل الاستدلال التشخيصية، تطور هذه الدراسة نموذجًا لغويًا كبيّرًا متعدد الوسائط قابلًا للتوسع ويتوافق مع السياق السريري، وتطوّر مسارًا نحو تضييق الفجوة بين اللغة والصور في النماذج متعددة الوسائط المحددة. يمكن العثور على مشروعنا عبر هذا الرابط: https URL.