نفذت الجامعة الوطنية في سنغافورة نمذجة دقيقة لمجموعة المرضى استنادًا إلى بيانات السجلات الصحية الإلكترونية متعددة الأبعاد، وزادت دقة التنبؤ بمدة الإقامة في المستشفى بمقدار 16.3%

في عصر التطور السريع لتكنولوجيا المعلومات الطبية اليوم، أصبحت السجلات الصحية الإلكترونية (EHR) جزءًا أساسيًا من النظام الطبي. بفضل بنيتها التنظيمية، تخزن السجلات الطبية للمرضى بدقة وبشكل إلكتروني.تغطية كل شيء من التركيبة السكانية الأساسية إلى الخصائص الطبية الديناميكية المتغيرة مع مرور الوقت،ويوفر دعمًا قويًا للبيانات لجميع جوانب الممارسة الطبية ويلعب دورًا لا غنى عنه في مجالات رئيسية مثل مساعدة اتخاذ القرارات السريرية وتحسين إدارة المرضى.
بالعودة إلى الممارسة السريرية خلال ذروة جائحة كوفيد-19 عام 2020، اكتشف الأطباء أنماطًا رئيسية من خلال بناء مجموعات من المرضى من فئات عمرية مختلفة: كان المرضى الذين تتراوح أعمارهم بين 50 و70 عامًا أكثر عرضة للإصابة بأعراض حادة مثل ضيق التنفس والتدهور المعرفي، بينما كانت أعراض المرضى الذين تتراوح أعمارهم بين 20 و40 عامًا خفيفة أو بدون أعراض في الغالب. لا يوفر هذا التحليل المقارن القائم على المجموعات أساسًا مباشرًا لصياغة خطط التشخيص والعلاج فحسب، بل يكشف أيضًا عن العنصر الأساسي في تعلم تمثيل السجلات الصحية الإلكترونية والذي أُهمل لفترة طويلة - مجموعات المرضى.
باعتبارها الوحدة الأساسية للبحث الطبي، تُحدد المجموعات السريرية مجموعات المرضى ذوي الخصائص السريرية المتشابهة من خلال السمات المشتركة. وتتجاوز قيمتها بكثير مجرد جمع البيانات الفردية: فهي لا تقتصر على اكتشاف أنماط الأمراض لدى فئات سكانية محددة، مثل العلاقة بين أعراض الحمى وعدوى كوفيد-19، بل تُقدم أيضًا أدلة مُستهدفة للتدخل الطبي الدقيق. ومع ذلك، فإن أساليب تقسيم المجموعات السريرية التقليدية تنطوي على العديد من القيود، ويصعب تلبية متطلبات معالجة بيانات السجلات الصحية الإلكترونية المُحسّنة.إذا لم يكن من الممكن تحقيق تقسيم دقيق لقائمة الانتظار، فمن السهل إدخال الضوضاء ولا يمكن الاستفادة الكاملة من المعلومات القيمة داخل قوائم الانتظار وبينها.
وفي هذا السياق،اقترحت الجامعة الوطنية في سنغافورة وجامعة تشجيانغ بشكل مشترك طريقة مبتكرة تسمى NeuralCohort، والتي فتحت طريقًا جديدًا لتعلم تمثيل السجلات الصحية الإلكترونية.بفضل بنيتها الفريدة ثنائية الوحدات، من المتوقع أن تتغلب هذه الطريقة على الصعوبات الحالية، وتُطلق العنان لإمكانات بيانات السجلات الصحية الإلكترونية، وتُضفي زخمًا قويًا على التحليل الطبي. وقد حظيت آفاق تطبيقها في المجال الطبي باهتمام كبير. ومن المتوقع أن تُحدث تحولًا جذريًا في تحليل البيانات الطبية ونماذج اتخاذ القرارات السريرية، وأن تدفع الصناعة الطبية نحو مستوى أعلى من التطور الذكي والدقيق.
وقد تم اختيار نتائج البحث ذات الصلة لمؤتمر ICML 2025 تحت عنوان "NeuralCohort: التعلم التمثيلي العصبي الواعي للمجموعة لتحليلات الرعاية الصحية".
أبرز الأبحاث:
* NeuralCohort المقترح في هذه الدراسة هو أسلوب تعلم تمثيل عصبي يعتمد على قائمة الانتظار ويركز على دعم إنشاء قائمة انتظار دقيقة
* يستغل NeuralCohort بشكل مبتكر المعلومات المحلية داخل المجموعة والمعلومات العالمية بين المجموعات، وهي عناصر رئيسية لم يتم تناولها بشكل كافٍ في دراسات تحليل السجلات الصحية الإلكترونية السابقة
* يتميز NeuralCohort بتوافقه الممتاز وقدرته على التكامل بسلاسة مع مختلف النماذج الأساسية. ويمكن استخدامه كملحق متعدد الاستخدامات لدمج معلومات المجموعة في التحليل الطبي، مما يُحسّن الأداء العام.

عنوان الورقة:
https://openreview.net/forum?id=bqQVa6VRvm
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://go.hyper.ai/owxf6
نظام بيانات السجلات الصحية الإلكترونية: تكامل المعلومات الطبية متعددة الأبعاد ودعم مجموعة بيانات الأبحاث السريرية
ويعتمد نظام البيانات الأساسي المشارك في هذه الدراسة على السجلات الصحية الإلكترونية (EHR).يتضمن هيكل البيانات الخاص به معلومات الدورة الطبية الكاملة للمريض.تتضمن هذه الدراسة سجلات مفصلة لحالات الاستشفاء، والعيادات الخارجية، والطوارئ، بالإضافة إلى معلومات متعددة الأبعاد مثل التشخيص السريري، وخطة العلاج، وسجلات الأدوية، ونتائج الفحوصات، وتقارير التصوير، والملاحظات السريرية، مما يُشكل قاعدة بيانات منظمة تتتبع الحالة الصحية للمرضى بشكل طولي، مما يوفر دعمًا شاملًا للبيانات لاتخاذ القرارات السريرية، والطب الشخصي، وأبحاث صحة السكان. وكما هو موضح في الجدول أدناه، تشمل مجموعات البيانات المحددة المستخدمة في هذه الدراسة ما يلي:
تُعد مجموعة بيانات MIMIC-III موردًا طبيًا مهمًا متاحًا للعامة، حيث تغطي 53,423 سجلًا فريدًا للاستشفاء.ويشمل هذا السجل المرضى البالغين الذين تبلغ أعمارهم 16 عامًا فأكثر والذين تم إدخالهم إلى وحدة العناية المركزة في مركز بيث إسرائيل ديكاني الطبي بين عامي 2001 و2012، ويحتوي أيضًا على 2،083،180 ملاحظة سريرية مجهولة الهوية، مما يوفر رؤى عميقة في تطور مرض المرضى وعملية العلاج واتخاذ القرارات السريرية.
ترتكز مجموعة بيانات MIMIC-IV على معلومات قبول المرضى التي تم جمعها بين عامي 2008 و2022.ويتبنى هيكل تنظيمي للبيانات معياري، مع التركيز على إمكانية تتبع مصادر البيانات واستقلالها، مما يجعل من المناسب للباحثين الاستعانة بمرونة بمصادر بيانات مختلفة وبياناتهم المشتركة وفقًا لاحتياجاتهم.
تقوم مجموعة بيانات Diabetes130 بجمع بيانات الرعاية السريرية من 130 مستشفى وشبكات رعاية صحية متكاملة في الولايات المتحدة بين عامي 1999 و2008.مع التركيز على تحليل الأنماط في مجال علاج مرض السكري، توفر موضوعات البيانات الفريدة وتراكم البيانات على المدى الطويل دعمًا دقيقًا للبيانات للبحث المتعمق حول أنماط رعاية مرض السكري التاريخية، وتحسين خطط العلاج لمرضى السكري، وتحقيق خدمات طبية آمنة وشخصية.

نموذج NeuralCohort: إطار عمل تعليمي لتمثيل السجلات الصحية الإلكترونية على أساس المجموعة، مدفوع بوحدتين
من أجل دمج مجموعات المرضى بشكل فعال لتعزيز تأثير التعلم التمثيلي لبيانات السجلات الصحية الإلكترونية (EHR)، يتكون NeuralCohort من وحدتين أساسيتين: وحدة تجميع مجموعة المرضى قبل السياق ووحدة التعلم لمجموعة المرضى ثنائية النطاق.

في وحدة تركيب قائمة انتظار ما قبل السياق،قدم نموذج NeuralCohort لأول مرة محرك زيارة هرمي.يمكنه التعامل مع هياكل أنطولوجية معقدة لرموز التشخيص، مثل نظام الشجرة في ICD-9. ومن خلال الجمع بين تمثيل المسار وقياس التشابه الدلالي، تستطيع الوحدة التمييز بفعالية بين المصطلحات الطبية ذات الارتباطات الهرمية، مثل الرموز المختلفة لمرض السكري ومضاعفاته. وفي الوقت نفسه، يمكن للنموذج دمج السمات الهرمية لرموز التشخيص والأدوية والاختبارات.واستخدام آلية الانتباه العكسي للوقت (الانتباه العكسي للوقت)،يتم تجميع معلومات الزيارة التاريخية بشكل ديناميكي مع الزيارة الحالية كنقطة ارتكاز لالتقاط التبعية الزمنية لتسلسل الزيارة.
لمعالجة عدم كفاءة الشرح اليدوي التقليدي لتشابه المرضى، قدمت الوحدة بشكل مبتكر مهمة تدريب PseudoSim، وأنشأت تسميات وهمية باستخدام رموز التشخيص، وحسّنت تمثيل المرضى من خلال التقدير العصبي للمعلومات المتبادلة. وأخيرًا، تم التوصل إلى استنتاج المجموعة باستخدام تباعد جنسن-شانون وتوزيع t للطلاب، مما وفر مخططًا منظمًا لتصنيف المرضى لتحليله لاحقًا.
وحدة تعلم قائمة الانتظار ذات المقياس المزدوج مخصصة لاستخراج الميزات المشتركة داخل قائمة الانتظار والميزات المختلفة بين قوائم الانتظار المختلفة..في نمذجة المجموعة المحلية، يُعامل النموذج كل مجموعة كهيكل بياني، ويُنشئ مصفوفة تجاور باستخدام تشابه جيب التمام لتمثيلات المرضى. تُجمّع الشبكة العصبية البيانية معلومات العقد طبقةً تلو الأخرى لالتقاط أنماط تفاعل المرضى في المجموعة نفسها.
يستخدم نمذجة المجموعة العالمية بنية التشفير وفك التشفير للحفاظ على سلامة الدلالة للمجموعة من خلال فقدان إعادة البناء، مع الجمع بين فقدان التباين لتعزيز فصل الميزات للمجموعات المختلفة وضمان إمكانية التمييز بين المجموعات.
أخيرًا، يُدمج التمثيل الأولي للشبكة الأساسية، والتمثيل المحلي داخل قائمة الانتظار، والتمثيل الشامل بين قوائم الانتظار من خلال آلية الانتباه عبر النطاقات لتشكيل تمثيل نهائي يحتوي على معلومات قائمة انتظار متعددة المستويات. أثناء عملية تدريب النموذج، تدمج دالة الخسارة فقدان التدريب شبه المتشابه، وفقدان اشتقاق قائمة الانتظار، وفقدان مقارنة قائمة الانتظار، وفقدان المهمة اللاحقة، ويتم تحقيق تحسين متعدد الأهداف من خلال تعديل معلمات الوزن. هذا يُمكّن NeuralCohort ليس فقط من تعلم خصائص المرضى الفردية الدقيقة، بل أيضًا من التقاط أنماط مجموعات قوائم الانتظار القابلة للتفسير سريريًا، مما يوفر حلاً يجمع بين الدقة وقابلية التفسير لمهام تحليل البيانات الطبية، ومن المتوقع أن يعزز اتخاذ القرارات الطبية العلمية والدقيقة.
التحقق التجريبي متعدد الأبعاد: زادت دقة نموذج NeuralCohort بمقدار 16.3%، مما أدى إلى تحسين عملية اتخاذ القرار بشكل كبير في إدارة المرضى
لتقييم تأثير تحسين NeuralCohort على تعلم تمثيل السجلات الصحية الإلكترونية (EHR)، قام فريق البحث ببناء إطار تجريبي شامل.
اختار الباحثون ثلاثة نماذج تمثيلية في مجال تحليل البيانات الطبية، وهي Med2Vec وMiME وClinicalBERT، كأطر مرجعية. ولإجراء مقارنة فعّالة، أُدرجت في التجربة سبع خوارزميات تقليدية لتكامل الأتراب، مثل KNN وK-Means، كطرق للمقارنة.
يركز التصميم التجريبي على مهمتين رئيسيتين للتنبؤ الطبي: التنبؤ بإعادة الدخول إلى المستشفى والتنبؤ بالإقامة الطويلة (LOS).لهاتين المهمتين أهمية بالغة في إدارة الموارد الطبية وتحسين جودة رعاية المرضى. ولتقييم أداء النموذج تقييمًا شاملًا، استخدم الباحثون ثلاثة مؤشرات تقييم معترف بها على نطاق واسع، وهي AUPRC وAUROC والدقة، وأجروا خمس جولات من التجارب المتكررة للحصول على نتائج إحصائية مستقرة وموثوقة، مما مكّنهم من تقييم قدرة النموذج على التعميم بشكل منهجي.
تظهر النتائج التجريبية الإجمالية في الجدول التالي. يُظهر NeuralCohort أداءً جيدًا في مهمتي تنبؤ من مجموعة بيانات MIMIC-III. وبالمقارنة مع النموذج الأساسي التقليدي،تم تحسين مؤشر AUPRC بما يصل إلى 8.0%، وتم تحسين مؤشر AUROC بمقدار 8.1%، وكانت الدقة أعلى بشكل كبير بمقدار 16.3%.
وكشف تحليل أعمق أن النموذج الأساسي فشل في تحقيق مكاسب ثابتة في الأداء.السبب الرئيسي هو أنه غير كافٍ في نمذجة معلومات قائمة الانتظار الدقيقة.على سبيل المثال، لا تعمل خوارزميتا KNN وK-Means في فضاء سمات مدرك للتشابه، كما أن الرسم البياني العالمي الذي ينشئه DGLoS غير دقيق، ويركز GRASP فقط على النمذجة بين المجموعات، ولا تستطيع خوارزميات DEC وDEKM وIDC نمذجة الدلالات الطبية بفعالية. تؤدي هذه العيوب إلى ضعف أداء النموذج الأساسي في محاكاة أوجه التشابه بين المرضى، وقد تُدخل تشويشًا في النموذج الأساسي، مما يُضعف الأداء العام.


بالمقارنة مع أساليب بناء المجموعات الطبية التقليدية، يُظهر نموذج NeuralCohort مزايا كبيرة. عادةً ما تُقسّم الأساليب التقليدية المجموعات بناءً على خصائص محددة، مثل الجنس والعمر وتشخيص داء السكري وارتفاع ضغط الدم. المجموعات المُولّدة بهذه الطريقة غير مُحددة نسبيًا، مما يُصعّب تلبية احتياجات استخراج أنماط المجموعات، كما يُسهّل تجميع المرضى المختلفين في المجموعة نفسها، مما يُسبب تشويشًا. في المقابل، يستخدم نموذج NeuralCohort التمثيل التسلسلي لمستوى الزيارات للمرضى داخل المجموعات وفيما بينها للعمل على مستوى دقيق.وقد أدى هذا إلى تحسين التشابه السريري بين المرضى في المجموعة في مجموعة بيانات MIMIC-III بمقدار 23.5%.

مقارنة بين المجموعة التقليدية ومجموعة NeuralCohort على مجموعة بيانات MIMIC-III
يكشف تحليل قابلية التفسير بشكل أكبر عن مزايا NeuralCohort. يُظهر مقياس كالينسكي-هاراباز أن المجموعة التي تُنتجها NeuralCohort تُحسّن مقياس CH بمقدار 18.7%-25.4% في مهمة LOS طويلة المدى مقارنةً بأساليب مثل K-Means. كما يُظهر التحليل البصري القائم على t-SNE أن التمثيل الناتج مباشرةً من النموذج الأساسي يتداخل بشكل كبير مع المجموعات، بينما يُدخل NeuralCohort، كما هو موضح في الشكل أدناه، معلومات المجموعة.تم تحسين التمييز بين مجموعات الأهداف الثمانية بمقدار 41.2%، ومن بينها كانت الحدود المميزة للمجموعات السريرية النموذجية مثل مجموعة أمراض القلب والأوعية الدموية ومجموعة أمراض التمثيل الغذائي المزمن واضحة بشكل خاص.

من الناحية السريرية،يعد برنامج NeuralCohort قادرًا على تحديد الخصائص الخاصة بالمجموعة والتي ترتبط بشكل مباشر بالنتائج السريرية، وبالتالي تعزيز إدارة المريض بشكل كبير.على سبيل المثال، شملت الخصائص الفريدة للفئات الأربع التي تم تحديدها من خلال اختبارات t أنواعًا مختلفة من فئات المرضى مثل أمراض القلب والأوعية الدموية، والأمراض الأيضية المزمنة وأمراض الدم، ومشاكل الكلى والمسالك البولية، والأمراض المزمنة والحادة المعقدة.
إن تحديد هذه الخصائص يمكّن المستشفيات من تخصيص الموارد بشكل أكثر تحديدًا، مثل أسرة القياس عن بعد، واستشارات أمراض القلب، ومعلمي مرض السكري، وفرق الكلى، وما إلى ذلك، وصياغة تدابير التدخل المناسبة، مثل الاستخدام في الوقت المناسب لمدرّات البول، ومعايرة الأنسولين، وجدولة فحوصات التصوير، وبالتالي تحسين كفاءة المستشفى وجودة رعاية المرضى بشكل كبير.
التعاون بين الصناعة والبحث، ونظام بيئي مبتكر للسجلات الصحية الإلكترونية مدفوع في اتجاهين
في مجال تعلم تمثيل السجلات الصحية الإلكترونية وتحليل المجموعة، تعمل المجتمعات الأكاديمية والتجارية العالمية على تعزيز الإصدار العميق لقيمة البيانات الطبية من خلال الاختراقات التكنولوجية المتطورة وابتكارات الممارسة السريرية، مما يعطي زخمًا جديدًا لتطوير الطب الدقيق.
يدمج نموذج MHGRL الذي اقترحه فريق البروفيسور وانج شياولي في جامعة شيامن البنية الداخلية للسجلات الصحية الإلكترونية مع المعرفة الطبية الخارجية من خلال إنشاء رسم بياني غير متجانس متعدد الوسائط.لقد تم تحسين دقة التنبؤ بالمرض بشكل كبير على مجموعات البيانات مثل MIMIC-III.تعمل آلية الاهتمام العكسي التي يتبناها هذا النموذج على تعزيز الارتباط بين الزيارة الحالية والسجل التاريخي، وهو ما يعكس وحدة تركيب قائمة الانتظار قبل السياق في NeuralCohort في المنطق التقني، وكلاهما يعكس التركيز على نمذجة معلومات السلسلة الزمنية.
يعتمد نموذج GEMS الذي بناه فريق جامعة كورنيل على 8 ملايين من بيانات السجلات الصحية الإلكترونية الحقيقية.أظهرت الدراسة التطبيق المباشر لتحليل الأتراب في اتخاذ القرارات السريرية. التقطت الدراسة متجه السمات ذي 104 أبعاد لمرضى سرطان الرئة المتقدم من خلال مُرمِّز شبكة عصبية بيانية، ودمجته مع وحدة تجميع لتحديد ثلاثة أنماط ظاهرية فرعية ذات فروق كبيرة في معدلات البقاء على قيد الحياة. بلغ مؤشر c للتنبؤ بمعدل البقاء الإجمالي 0.665، متجاوزًا بكثير نموذج خط الأساس التقليدي. يتوافق مسارها التقني بشكل كبير مع وحدة تعلم الأتراب ثنائية النطاق في NeuralCohort من حيث المنهجية، وكلاهما يركز على استخراج السمات الأتراب ذات الأهمية السريرية من البيانات المعقدة.
حقق مجتمع الأعمال أيضًا نتائج باهرة، وهو يُحوّل التقنيات المتطورة من الأوساط الأكاديمية إلى أدوات تطبيقية سريرية عملية. على سبيل المثال، برنامج PATH، وهو ثمرة تعاون بين هيئة الخدمات الصحية الوطنية البريطانية (NHS) وشركة أبقراط للذكاء الاصطناعي (Hippocractic AI)،من خلال جمع التاريخ الطبي الآلي والتحقق من الإحالة من قبل وكلاء المحادثة، يمكن تقصير فترة الانتظار لاستشارات المتخصصين بواسطة 35%.يحتوي نظام الفرز الذكي هذا، القائم على السجلات الصحية الإلكترونية، على وحدة تحليل جماعي مدمجة تُمكّن من تحديد مجموعات المرضى المعرضين لخطر كبير آنيًا. على سبيل المثال، يُمكنه استخراج سمات مُعقدة، مثل "مرض الانسداد الرئوي المزمن المُصاحب لتفاقم حاد"، من الملاحظات السريرية من خلال معالجة اللغة الطبيعية، وتعديل أولويات المرضى ديناميكيًا.
باختصار، طوّر المجتمع الأكاديمي نماذجَ مجموعاتٍ أكثر دقةً من خلال ابتكار الخوارزميات، مما وسّع نطاقَ استخراج البيانات الطبية بشكلٍ مستمر. أما مجتمع الأعمال، معتمدًا على قدراته في التحول التكنولوجي، فقد حوّل هذه التقنيات المتطورة إلى أدواتٍ سريريةٍ قابلةٍ للتطبيق، مما يُحسّن كفاءة وجودة الخدمات الطبية. ومن المتوقع أن يُساعد هذا النظام البيئيّ المتكامل للابتكار الأطباءَ على الحصول على دعمٍ تشخيصيٍّ أكثر دقةً، وأن يُساعدهم أيضًا على اكتشاف إشارات الإنذار المُبكر للمخاطر الفردية من خلال خصائص المجموعة، وتعزيز تحوّل نماذج الخدمات الطبية من علاج الأمراض إلى إدارة الصحة، وتوفير دعمٍ قويٍّ لتحسين وتطوير النظام الطبي العالمي.
المقالات المرجعية:
1.https://cdmc.xmu.edu.cn/info/1002/3683.htm
2.https://mp.weixin.qq.com/s/Z1Wl0FIPHpwrvnNDCE5KwA
3.https://mp.weixin.qq.com/s/neCUoGm75mTPwjvlND5_sg