HyperAI

تم اختياره لجائزة ICML 2025! أطلقت كلية الطب بجامعة هارفارد وآخرون أول نموذج لخريطة ذهنية سريرية في العالم في مجال تبادل المعلومات الصحية (HIE)، مع تحسين أداء 15% في مهام التنبؤ بالنتائج المعرفية العصبية.

特色图像

مع التقدم الهائل الذي تشهده تكنولوجيا الذكاء الاصطناعي، تعمل نماذج الرؤية واللغة واسعة النطاق (LVLMs) على إعادة تشكيل الحدود المعرفية للعديد من المجالات بمعدل مذهل.في مجال تحليل الصور الطبيعية والفيديو،بالاعتماد على بنية الشبكة العصبية المتقدمة ومجموعات البيانات الضخمة المصنفة ودعم الحوسبة القوي، يمكن لهذا النوع من النماذج إكمال المهام عالية المستوى بدقة مثل التعرف على الكائنات وتحليل المشهد.في مجال معالجة اللغة الطبيعية،بفضل التعلم من مجموعات النصوص على مستوى TB، حقق برنامج LVLMs أداءً احترافيًا في مهام مثل الترجمة الآلية، وتلخيص النصوص، وتحليل المشاعر. بل إن الملخصات الأكاديمية التي يُنتجها قادرة على استخلاص الاستنتاجات الأساسية للأدبيات الطبية بدقة.

مع ذلك، ومع تزايد موجة التكنولوجيا في المجال الطبي، واجه تطبيق نماذج LVLM مقاومة كبيرة. ورغم أن الطلب على التشخيص المساعد الذكي في الحالات السريرية ملحّ للغاية، إلا أن التطبيق الطبي لهذه النماذج لا يزال في مرحلة الاستكشاف الأولية.ينبع الاختناق الأساسي من الخصائص الفريدة للبيانات الطبية:ونتيجة للقيود المتعددة مثل لوائح حماية خصوصية المرضى، وتأثيرات جزيرة البيانات الطبية، وآليات المراجعة الأخلاقية، فإن حجم مجموعات البيانات الطبية عالية الجودة المتاحة للجمهور لا يتجاوز واحد على عشرة آلاف من حجمها في المجال العام.تستخدم معظم مجموعات البيانات الطبية الموجودة هياكل أساسية للإجابة على الأسئلة المرئية، مع التركيز على مهام التعرف على الأنماط الأساسية مثل "ما هو هذا الهيكل التشريحي؟"——على سبيل المثال، تحتوي مجموعة البيانات العامة على 200000 تعليق على الأشعة السينية، لكن محتوى التعليقات التوضيحية لـ 90% يظل على مستوى تحديد موقع العضو ولا يمكنه التطرق إلى الاحتياجات السريرية الأساسية مثل تصنيف شدة الآفة وتقييم مخاطر التشخيص.

يؤدي هذا التفاوت بين عرض البيانات والطلب الفعلي إلى تمكين النموذج من تحديد الإشارات غير الطبيعية في العقد القاعدية عند مواجهة صور التصوير بالرنين المغناطيسي لاعتلال الدماغ نقص الأكسجين الإقفاري عند الأطفال حديثي الولادة (HIE)، لكنه غير قادر على دمج المعلومات متعددة الأبعاد مثل العمر الحملي والتاريخ الطبي حول الولادة للتنبؤ بتشخيص النمو العصبي.

ومن أجل التغلب على هذه المعضلة، قام فريق متعدد التخصصات من مستشفى بوسطن للأطفال، وكلية الطب بجامعة هارفارد، وجامعة نيويورك، ومختبر واتسون التابع لمعهد ماساتشوستس للتكنولوجيا - آي بي إم، بجمع عشر سنوات من صور التصوير بالرنين المغناطيسي وتفسيرات الخبراء لـ 133 فردًا يعانون من اعتلال الدماغ نقص الأكسجين الإقفاري (HIE).تم إنشاء مجموعة بيانات مرجعية للمنطق الطبي على المستوى المهني،يهدف إلى تقييم الأداء المنطقي لـ LVLMs بشكل دقيق في المجالات المهنية الطبية.واقترح فريق البحث أيضًا نموذج الخريطة الذهنية السريرية (CGoT).إن القدرة على محاكاة عملية التشخيص من خلال مطالبات رسم الخرائط الذهنية الموجهة بالمعرفة السريرية تسمح بدمج المعرفة السريرية الخاصة بالمجال كمدخلات بصرية ونصية، مما يعزز بشكل كبير القوة التنبؤية لـ LVLMs.

تم اختيار نتائج البحث ذات الصلة، بعنوان "المعرفة البصرية والمجالية للتفكير الطبي على المستوى المهني"، بنجاح لـ ICML 2025.

أبرز الأبحاث:

* إنشاء اختبار مرجعي جديد لمنطق HIE يجمع بين الإدراك البصري السريري والمعرفة الطبية المهنية لأول مرة، ويحاكي عملية اتخاذ القرار السريري، ويقيم بدقة الأداء المهني لـ LVLMs في التفكير الطبي.

* مقارنة شاملة بين نماذج LVLM المتقدمة العامة والطبية للكشف عن حدودها من حيث المعرفة في المجال الطبي وتقديم توجيهات لتحسين النموذج.

* اقترح نموذج CGoT، الذي يدمج الخبرة الطبية مع LVLMs، ويحاكي عملية اتخاذ القرار السريري، ويعزز بشكل فعال دعم القرار الطبي.

عنوان الورقة: 

https://openreview.net/forum?id=tnyxtaSve5

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://go.hyper.ai/owxf6

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s

HIE-Reasoning: بناء مجموعات بيانات متعددة الوسائط وإنشاء نظام مهام التفكير المهني

من حيث بناء البيانات، تركز هذه الدراسة على اعتلال الدماغ نقص الأكسجين الإقفاري (HIE)، وهو مرض حديث الولادة شديد الخطورة.على مدى 10 سنوات، تم جمع صور عالية الجودة من التصوير بالرنين المغناطيسي لـ 133 طفلاً مصابًا بـ HIE تتراوح أعمارهم بين 0 و14 يومًا.الحصول في نفس الوقت على تقارير تفسيرية تم التحقق من صحتها سريريًا من قبل خبراء متعددي التخصصات (بما في ذلك أخصائي أشعة أعصاب كبير لديه 30 عامًا من الخبرة) لتشكيل مجموعة بيانات أساسية للتتبع الطولي.

كما هو موضح في الشكل أدناه، حدد الباحثون ست مهام لـ LVLMs لأداء التفكير السريري المهني:

* المهمة 1: تصنيف الآفة.تقوم المهمة بقياس الضرر الدماغي عن طريق تقدير النسبة المئوية لحجم الدماغ المتأثر بآفات HIE وتقييم شدة الآفات.

* المهمة 2: تشريح الآفة.تعمل هذه المهمة على تحديد المنطقة المحددة من الدماغ التي تتأثر بالآفة.

* المهمة 3: الإصابة في أماكن نادرة.تعمل هذه المهمة على تحديد الآفات الناجمة عن HIE وتصنيف المناطق المصابة على أنها شائعة أو غير شائعة، مما يساعد في تحديد ما إذا كان المريض يحتاج إلى اهتمام إضافي.

* المهمة 4: درجة إصابة التصوير بالرنين المغناطيسي.تقوم المهمة بإخراج درجة إصابة إجمالية من التصوير بالرنين المغناطيسي، مما يوفر مقياسًا موحدًا لشدة الإصابة لتوجيه العلاج والتنبؤ بالنتيجة.

* المهمة 5: النتيجة المعرفية العصبية لمدة عامين.تتنبأ المهمة بالنتائج الإدراكية العصبية للمرضى بعد عامين، مما يساعد الأطباء على توقع التأثيرات طويلة المدى والتخطيط للتدخلات المناسبة.

* المهمة 6: ملخص تفسير التصوير بالرنين المغناطيسي.تعتمد المهمة على قالب ملخص تصوير الرنين المغناطيسي لحديثي الولادة الموصى به من قبل أخصائي الأشعة، وهي قادرة على إنشاء تفسير شامل لتصوير الرنين المغناطيسي للمريض.

نظرة عامة على مجموعة بيانات استدلال HIE والمهمة

أخير،قام الباحثون ببناء أول مجموعة بيانات عامة لتبادل المعلومات الصحية في العالم، والتي تسمى HIE-Reasoning، والتي تحتوي على 749 زوجًا من الأسئلة والأجوبة و133 ملخصًا لتفسير صور الرنين المغناطيسي.على عكس مجموعات البيانات الطبية التقليدية مثل VQAmed وOmiMed-VQA، والتي تركز على القضايا الأساسية مثل التعرف على طريقة التصوير وتحديد موضع الأعضاء،تقوم مجموعة البيانات هذه بتحويل عملية التفكير العميق للخبراء السريرييين إلى نظام تقييم قابل للحساب لأول مرة.يعتمد ابتكار بنية البيانات على بنية ثلاثية الطبقات: صور أصلية وملفات مهام على مستوى المريض، وقوالب استدلال معرفي متعدد الحالات، وخرائط احتمالية إصابة فردية. ولا يقتصر هذا على الحفاظ على سلامة البيانات الطبية فحسب، بل يزود النموذج أيضًا بمدخلات معرفية واضحة، بما في ذلك الآليات المرضية.

على الرغم من أن حجم العينة كان 133 حالة فقط، من خلال جمع بيانات بأثر رجعي متعدد المراكز على مدى 17 عامًا (2001-2018)، إلى جانب انخفاض معدل الإصابة بـ HIE في المستشفيات الثالثية بنسبة 1-5‰،أصبحت مجموعة البيانات هذه أول معيار محدد لتبادل المعلومات الصحية يجمع بين المعلومات التصويرية والسريرية والتشخيصية المتعددة الوسائط.إن دقة الوسم والعمق السريري كافيان لتعويض قيود المقياس، مما يوفر معيارًا لا غنى عنه لأجهزة LVLM لاختراق عنق الزجاجة المتمثل في "التحديد الأساسي" والدخول إلى المياه العميقة للتشخيص واتخاذ القرارات العلاجية.

نموذج CGoT: مدفوعًا بخريطة التفكير السريري، وبناء إطار عمل جديد للتفكير الطبي الهرمي القابل للتفسير

لتجاوز عقبة قابلية التفسير في نماذج اللغة البصرية التقليدية واسعة النطاق (LVLMs) في التفكير الطبي (كما هو موضح في الشكل أ أدناه)، اقترح فريق البحث نموذج خريطة الأهداف السريرية (CGoT)، كما هو موضح في الشكل ب.ج. ومن خلال دمج المعرفة السريرية لتوجيه نموذج اللغة لمحاكاة عملية تشخيص الطبيب، يمكن تحسين موثوقية التنبؤ بالنتائج العصبية المعرفية بشكل ملحوظ.يعتمد هذا النموذج بشكل مبتكر على "خريطة ذهنية منطقية" منظمة، تحويل خطوات التشخيص التي يتخذها الخبراء الطبيون إلى خط أنابيب تفكير هرمي لحل المهام المعقدة من خلال التراكم التدريجي للمعرفة.

مخطط منطقي لـ LVLM و CGoT

ينقسم جانب المعرفة النصية إلى معرفة سريرية عامة (تشمل الخلفية الطبية العامة، مثل خرائط تشريح الدماغ، وأنماط توزيع الآفات، وارتباطات تشخيص المؤشرات الحيوية للتصوير بالرنين المغناطيسي، إلخ)، ومعرفة سريرية فردية (دلائل تشخيصية خاصة بالمريض تُولّد ديناميكيًا من خلال مخرجات المهام السابقة). يُهيكل هذان النوعان من المعرفة ويُدخلان بطريقة هندسية سريعة لتوجيه LVLM نحو الاستنتاج خطوة بخطوة وفقًا للسلسلة المنطقية المكونة من "الإرشادات السريرية - سمات التصوير - التاريخ الطبي الفردي".

يُحوّل الإطار بأكمله منطق التشخيص الطبي الضمني إلى مُدخلات نموذجية قابلة للحساب من خلال دمج مُحفزات مُهيكلة للرسوم البيانية السريرية مع المعرفة متعددة الوسائط. هذا لا يُحافظ فقط على قدرات المعالجة متعددة الوسائط لـ LVLMs، بل يُجنّب أيضًا عشوائية عملية الاستدلال من خلال ترسيخ المعرفة السريرية.

يحقق تقييم أداء التفكير السريري CGoT تحسينات هائلة في المهام الرئيسية

للتحقق من فعالية معيار HIE-Reasoning ونموذج CGoT، قام فريق البحث بتصميم نظام تجريبي متعدد الأبعاد.

أولاً،أجرى الباحثون تقييمات أولية على ستة نماذج لغوية بصرية واسعة النطاق.تم اختيار ثلاثة أنواع من LVLMs العامة (Gemini1.5-Flash، GPT4o-Mini، GPT4o) وثلاثة أنواع من LVLMs الطبية (MiniGPT4-Med، LLava-Med، Med-Flamingo) كنماذج أساسية. تم تقييم ست مهام سريرية رئيسية، بما في ذلك تصنيف الآفات، والتوطين التشريحي، والتنبؤ بالتشخيص، باستخدام مؤشرات خاصة بكل مهمة مثل الدقة، وMAE، ودرجة F1، وROUGE-L. استخدم التنبؤ بالنتائج العصبية المعرفية على مدار عامين متوسط الدقة بين الفئات لموازنة تحيز توزيع التصنيفات.

تكشف النتائج التجريبية عن القيود الكبيرة لنماذج LVLM التقليدية: فعند إدخال شرائح التصوير بالرنين المغناطيسي ووصف المهام مباشرةً، يُظهر أداء جميع النماذج الأساسية أداءً ضعيفًا في مهام التفكير الطبي المهني. بعض النماذج تعاني من هلوسات في الإجابات أو ترفض الإجابة بتحفظ بسبب نقص المعرفة السريرية. على سبيل المثال، يُنتج Med-Flamingo محتوى متكررًا لا معنى له في مهام تحديد المواقع التشريحية، ولا تستطيع سلسلة GPT4o التعامل مع مشاكل عدم اليقين العالية بسبب استراتيجية المحاذاة الخاصة بها.

وعلى النقيض من ذلك، كما هو موضح في الجدول التالي،يحقق نموذج CGoT تحسينات هائلة في المهام الرئيسية من خلال دمج الخرائط الذهنية السريرية والمعرفة متعددة الوسائط——خاصة في الاحتياجات السريرية الأساسية للتنبؤ بالتشخيص لمدة عامين، تم تحسين أدائه بأكثر من 15% مقارنة بالنموذج الأساسي، كما أن دقة واتساق المهام مثل تصنيف الآفة وتسجيل الإصابة أفضل بشكل ملحوظ من المجموعة الضابطة.

مقارنة أداء النماذج المختلفة على معيار HIE-Reasoning
النتائج النوعية لـ CGoT

في الوقت نفسه، تُظهر تجارب المتانة أنه حتى عند إدخال اضطرابات في درجات المستوى ±1 في نتائج المهام الوسيطة لـ 10%-30%، فإن أداء النموذج لا يُظهر سوى انخفاض تدريجي، مما يُظهر قدرته على التكيف مع تشويش البيانات الشائع في الممارسة السريرية. تشير هذه النتائج مجتمعةً إلى أنمن خلال محاكاة عملية التفكير الهرمي للتشخيص السريري، لا يخترق CGoT النقاط العمياء المعرفية للنماذج التقليدية فحسب، بل يبني أيضًا نظام دعم قرار موثوقًا به وقريبًا من سيناريوهات التشخيص والعلاج الحقيقية.

الدفع الثنائي للمركبات الطبية ذات المحركات المدرعة المدرعة: الممارسات والاتجاهات المبتكرة في الأوساط الأكاديمية وقطاع الأعمال

على الصعيد العالمي، تشهد الأبحاث وتطبيق نماذج الرؤية واللغة الكبيرة (LVLMs) في المجال الطبي تحولاً نموذجياً، كما تعمل الممارسات المبتكرة في الأوساط الأكاديمية ومجتمع الأعمال بشكل مشترك على دفع الاختراقات في هذا المجال.

على مستوى البحث الأكاديمي، أصدر مختبر الذكاء الاصطناعي في شنغهاي، بالتعاون مع جامعة واشنطن وجامعة موناش وجامعة شرق الصين العادية ومؤسسات بحثية أخرى، اختبار معياري GMAI-MMBench.إنه يدمج 284 مجموعة بيانات للمهام السريرية، تغطي 38 نموذجًا للتصوير الطبي و18 احتياجًا سريريًا أساسيًا (مثل تشخيص الورم، وتحليل التصوير العصبي، وما إلى ذلك).يستخدم المعيار نظام تصنيف شجرة المفردات لتصنيف الحالات بدقة حسب القسم والوسيلة ونوع المهمة، مما يوفر إطارًا موحدًا لتقييم قدرة التفكير السريري لأطباء LVLM.
* انقر هنا لعرض التقرير الكامل: يحتوي على 284 مجموعة بيانات، تغطي 18 مهمة سريرية، أصدر مختبر شنغهاي للذكاء الاصطناعي وآخرون معيارًا طبيًا متعدد الوسائط GMAI-MMBench

علاوة على ذلك، يقدم Med-R1، الذي تم تطويره بشكل مشترك من قبل جامعة إيموري وجامعة جنوب كاليفورنيا وجامعة طوكيو وجامعة جونز هوبكنز، بشكل مبتكر تحسين السياسة النسبية للمجموعة (GRPO) لمعالجة قيود طرق الضبط الدقيق الخاضع للإشراف (SFT) التقليدية.تحديثات السياسة المستقرة من خلال مكافآت القواعد ومقارنات المجموعات دون نماذج قيمة معقدة.وقد حققت أجهزة LVLM مفتوحة المصدر مثل MedDr التي أطلقتها جامعة هونج كونج للعلوم والتكنولوجيا أداءً قريبًا من النماذج التجارية في مهام محددة (مثل تصنيف الآفات)، مما يدل على إمكانات النظام البيئي مفتوح المصدر في مجال الذكاء الاصطناعي الطبي.

يُسرّع مجتمع الأعمال التحول السريري لأنظمة التصوير المقطعي المحوسب (LVLMs) من خلال تطبيق التكنولوجيا كجوهر أساسي. على سبيل المثال، حققت منصة Microsoft Azure Medical Cloud تكاملاً عميقاً لتحليل الصور الطبية، وأتمتة السجلات الطبية الإلكترونية، وغيرها من الوظائف من خلال دمج أدوات الذكاء الاصطناعي والبيانات السريرية. يُعد نظام الأشعة الذكي الذي طورته بالتعاون مع العديد من المستشفيات...القدرة على تحديد المناطق غير الطبيعية بسرعة في صور التصوير بالرنين المغناطيسي من خلال LVLM وإنشاء تقارير منظمة.مساعدة الأطباء في إكمال مهام تصنيف الآفات وتحديد المواقع التشريحية.

أطلقت جوجل نموذج MedGemma الطبي مفتوح المصدر، المبني على بنية Gemma3، والمُصمم خصيصًا للمجال الطبي والصحي. يهدف النموذج إلى تعزيز التطبيقات الطبية والصحية، وتحسين كفاءة التشخيص والعلاج الطبي من خلال دمج تحليل الصور الطبية والبيانات النصية بسلاسة.
* انقر هنا للحصول على تقرير مفصل: أطلقت Google برنامج MedGemma، الذي تم إنشاؤه على Gemma 3، والمتخصص في فهم النصوص والصور الطبية

تكشف هذه الممارسات مجتمعة عن اتجاهين رئيسيين في تطوير LVLMs الطبية:أولاً، التكامل العميق بين المعرفة السريرية وهندسة النموذج.على سبيل المثال، نظام المهام الذي تم إنشاؤه من خلال التعليقات التوضيحية من قبل الخبراء في معيار HIE-Reasoning الموصوف في هذه المقالة، وخريطة التفكير السريري التي قدمها نموذج CGoT؛والثاني هو الابتكار في التعاون بين التخصصات المختلفة وحوكمة البيانات.على سبيل المثال، يدمج نظام GMAI-MMBench مجموعات البيانات العالمية من خلال تنسيقات توضيحية موحدة وعمليات امتثال أخلاقية، مما يوفر نموذجًا لحل مشكلة ندرة البيانات الطبية. في المستقبل، ومع التوسع في تطبيق تقنيات مثل التعلم الفيدرالي وتوليد البيانات الاصطناعية، من المتوقع أن يحقق الأوساط الأكاديمية ومجتمع الأعمال إنجازات في السيناريوهات السريرية الأكثر تعقيدًا (مثل التنبؤ متعدد الوسائط بالتشخيص والتوجيه الجراحي الآني)، مما يعزز تحول الذكاء الاصطناعي من أداة مساعدة إلى شريك ذكي في اتخاذ القرارات.

المقالات المرجعية:
1.https://blog.csdn.net/Python_cocola/article/details/146590017
2.https://mp.weixin.qq.com/s/0SGHeV8OcXu8kFk68f-7Ww