HyperAIHyperAI

Command Palette

Search for a command to run...

أصبح التدريب المشترك ممكناً دون مشاركة البيانات! يقوم فريق جامعة كاليفورنيا في لوس أنجلوس بإعادة تشكيل فحص مورفولوجيا الدم باستخدام التعلم الموحد.

Featured Image

يُعدّ فحص مورفولوجيا الدم خطوةً حاسمةً في التشخيص السريري لاضطرابات الدم. فمن خلال فحص مورفولوجيا الخلايا في مسحات الدم المحيطي أو نخاع العظم، يستطيع الأطباء تحديد نوع اللوكيميا، وفقر الدم، والعدوى، واضطرابات الدم الوراثية. إلا أن هذه العملية لا تتطلب جهدًا كبيرًا فحسب، بل تعتمد أيضًا اعتمادًا كبيرًا على المتخصصين ذوي الخبرة. ولا سيما في البلدان ذات الدخل المنخفض والمتوسط، حيث يندر وجود المتخصصين المهرة، مما يجعل التشخيص الدموي السريع والموثوق والقابل للتطبيق على نطاق واسع ضرورةً ملحة.

في السنوات الأخيرة، أتاح تطور الذكاء الاصطناعي والتعلم العميق حلولاً جديدة لتحليل مورفولوجيا الدم. تستطيع نماذج الذكاء الاصطناعي التعرف تلقائياً على أنواع خلايا الدم البيضاء المختلفة، ومساعدة الأطباء في التشخيص السريع.تشير الأبحاث إلى أن التعلم العميق لديه إمكانات كبيرة في التشخيص الآلي لأمراض الدم.مع ذلك، لا تزال هناك تحديات كبيرة في التطبيقات العملية، إذ يعتمد تدريب النموذج بشكل كبير على البيانات، بينما تتوزع البيانات السريرية عادةً بين مستشفيات مختلفة وتعاني من تباينات في طرق التلوين وأجهزة التصوير، بالإضافة إلى وجود أنواع نادرة من الخلايا. قد يؤدي هذا التباين في البيانات إلى انخفاض قدرة النموذج على التعميم في مؤسسات أو مجموعات مرضى جديدة.

والأهم من ذلك، أن البيانات الطبية تنطوي على خصوصية المرضى، ويخضع تبادل البيانات بين المؤسسات لقيود صارمة. تتطلب أساليب التدريب المركزية التقليدية عادةً تجميع كميات هائلة من البيانات الطبية الحساسة، وتعتمد على موارد حوسبة عالية الأداء، وهو أمر يصعب تطبيقه في العديد من المؤسسات. لذا، أصبح تحقيق التدريب التعاوني بين المؤسسات المتعددة مع الحفاظ على الخصوصية قضية محورية تتطلب معالجة عاجلة في مجال الذكاء الاصطناعي الطبي.

وفي هذا السياق،اقترح فريق بحثي من قسم علوم الحاسوب في جامعة كوليدج لندن (UCL) إطار عمل للتعلم الموحد لتحليل مورفولوجيا خلايا الدم البيضاء.يُمكّن هذا المؤسسات من إجراء تدريب تعاوني دون تبادل بيانات التدريب. وباستخدام مسحات الدم من مواقع سريرية متعددة، يتعلم النموذج الموحد تمثيلات قوية وثابتة للميزات مع الحفاظ على خصوصية البيانات بشكل كامل. وتُظهر التقييمات على الشبكات الالتفافية والبنى القائمة على المحولات أن التدريب الموحد يتفوق على التدريب المركزي في الأداء عبر المواقع والتعميم على مؤسسات غير معروفة.

تم نشر نتائج البحث ذات الصلة، بعنوان "MORPHFED: التعلم الموحد لتحليل مورفولوجيا الدم عبر المؤسسات"، كنسخة أولية على موقع arXiv.

أبرز الأبحاث:

* بالمقارنة مع التدريب المركزي، يُظهر التدريب الموحد أداءً متفوقًا عبر المواقع وقدرته على التعميم على المؤسسات غير المعروفة.

تتيح هذه الطريقة تدريب النماذج التعاونية عبر المؤسسات دون مشاركة البيانات الأولية، مما يوفر حلاً قابلاً للتطبيق لبيئات الرعاية الصحية ذات الموارد المحدودة.

عنوان الورقة:
https://arxiv.org/abs/2601.04121
تابع حسابنا الرسمي على WeChat وأجب بكلمة "MORPHFED" في الخلفية للحصول على ملف PDF كامل.

مجموعة البيانات: تعكس التباين في البيئات السريرية الواقعية

استخدمت هذه الدراسة بيانات مسحات الدم من مؤسسات طبية متعددة لضمان أن بيانات التدريب لم تغطِ أنواع الخلايا المختلفة فحسب، بل عكست أيضًا عدم التجانس في البيئات السريرية الواقعية.

وبالتحديد، استخدمت الدراسة مجموعات بيانات مستقلة من مركزين.تحتوي مجموعتا البيانات هاتان على 11 نوعًا شائعًا من الخلايا (مثل العدلات، والحمضات، والخلايا القاعدية، والخلايا النخاعية الأولية، وما إلى ذلك).يضمن ذلك الاتساق في أهداف التصنيف مع الحفاظ على الاختلافات في التلوين والتصوير، ويستخدم لاختبار قدرة التعميم للتعلم الموحد في بيئات غير متجانسة حقيقية.

يوضح الشكل التالي توزيع فئات العملاء المختلفة.

توزيع الفئات في العملاء الموحدين

تُظهر الصورة أدناه أمثلة على بعض أنواع الخلايا من مجموعتي بيانات تدريبيتين.إن الاختلاف في أسلوب التلوين واضح للعيان، وهو تحديداً التحيز في البيانات الذي يحتاج النموذج إلى التغلب عليه.

أنواع الخلايا في العينات في مجموعتي بيانات التدريب

بالإضافة إلى ذلك، ولتقييم أداء النموذج بشكل مستقل على بيانات مؤسسية لم يسبق رؤيتها على الإطلاق،وقد حفظت الدراسة 12992 صورة من مستشفى برشلونة السريري (العميل 3).تُستخدم مجموعة البيانات هذه كمجموعة تحقق خارجية. وهي تشمل أجهزة تصوير متنوعة، وطرق تلوين، ومجموعات من المرضى، وتُستخدم لاختبار قدرة النموذج على التعميم في سيناريوهات واقعية متعددة المؤسسات.

نوعان من بنى التعلم العميق وأربع استراتيجيات تجميع موحدة

تستخدم هذه الدراسة نوعين من بنى التعلم العميق:

* ResNet-34: بنية كلاسيكية تعتمد على الشبكات العصبية الالتفافية (CNNs)، باستخدام أوزان ImageNet المدربة مسبقًا.

* DINOv2-Small: يعتمد على محول الرؤية ذاتي الإشراف (ViT)، ويلتقط ميزات الصورة العالمية من خلال التعلم الذاتي الإشراف.

يتبع التدريب بروتوكولًا موحدًا: يقوم النموذج الموحد بإجراء 5 جولات من الاتصال العالمي، حيث يقوم كل عميل بإجراء 5 دورات تدريب محلية لكل جولة، ليصبح المجموع 25 دورة تدريب؛ يستخدم نموذج الأساس المركزي 25 دورة تدريب ويقوم بالتحقق المتبادل 4 أضعاف، كما هو موضح في الشكل أدناه.تم تقسيم البيانات إلى مجموعة تدريب 60%، ومجموعة تحقق 1333%، ومجموعة اختبار محلية 1333%، ومجموعة اختبار عالمية 1333%.تم تغيير حجم جميع الصور إلى 224 × 224 بكسل وتم استخدام استراتيجية زيادة البيانات المحافظة (الترجمة ±10%، الدوران ±5 درجة) للحفاظ على المعلومات المورفولوجية التشخيصية.

(أ) يوضح إطار التعلم الموحد عملية تدريب تعاونية تحافظ على الخصوصية حيث يقوم العميل 1 والعميل 2 بتدريب النموذج محليًا ويتم تجميع المعلمات على خادم مركزي.
(ب) نموذج تدريب مركزي مع إمكانية الوصول الكامل إلى مجموعات البيانات المدمجة والتحقق المتبادل ذي الأربع طيات.

استخدمت كلتا البنيتين تقنية الضبط الدقيق الانتقائي: جمّدت بنية ResNet-34 الطبقات الأولى ودربّت فقط الكتل الثلاث الأخيرة المتبقية (حوالي 11 مليون مُعامل)؛ بينما جمّدت بنية DINOv2-Small أول 8 كتل من Transformer (من 0 إلى 7) ودربت الكتل من 8 إلى 11 (حوالي 9 ملايين مُعامل). تم الحفاظ على بيانات العميل 3 معزولة طوال عملية التدريب، واستُخدمت فقط لتقييم قدرة النموذج النهائي على التعميم على بيانات مؤسسية جديدة.

في إطار التعلم الموحد، يكون الخادم المركزي مسؤولاً عن تنسيق التدريب وتوزيع المعلمات العالمية، ولكنه لا يصل إلى البيانات الأصلية؛ يقوم العميل بالتدريب محليًا ويعيد فقط تحديثات المعلمات.

استخدمت الدراسة أربع استراتيجيات تجميع اتحادية:

* FedAvg: يحسب المتوسط المرجح لمعلمات العميل، وهو حساس لتوزيعات الفئات المتطرفة.

* FedMedian: يأخذ القيمة الوسيطة لكل إحداثية. وهو قوي في مواجهة العملاء غير الطبيعيين والأخطاء البيزنطية، ولكنه قد يكبح إشارات الفئة الأقلية.

* FedProx: يضيف قيودًا تقريبية إلى دالة الهدف المحلية لتعزيز استقرار التقارب على البيانات غير المستقلة والمتطابقة التوزيع.

* FedOpt: يستخدم التحسين التكيفي (Adam) على التدرجات المجمعة لضبط معدل التعلم ديناميكيًا للتعامل مع عدم تجانس العملاء وتسريع التقارب.

علاوة على ذلك، ولمعالجة مشكلة عدم توازن الفئات الحادة، تجمع هذه الدراسة بين استراتيجيات الخسارة البؤرية، وأخذ العينات العشوائية الموزونة، وتراكم التدرج لضمان عدم تجاهل إشارات التدريب من الفئات الأقل تمثيلاً. ويضمن تقليم التدرج (بحد أقصى معيار 1.0) تقاربًا مستقرًا أثناء التدريب.

تم تقييم أداء النموذج باستخدام الدقة المتوازنة، مع التركيز على قدرة التعميم عبر المؤسسات لاختبار متانة النموذج عند مواجهة بيانات من بروتوكولات تصوير مختلفة ومجموعات مرضى مختلفة.

يُظهر التدريب الموحد أداءً ممتازًا عبر المواقع وقدرته على التعميم على مؤسسات غير معروفة.

وللتحقق من فعالية إطار التعلم الموحد، أجرى الباحثون تقييمًا مشتركًا لمجموعة الاختبار وتقييمًا لتعميم البيانات الموزعة الخارجية.

① تقييم مجموعة الاختبار المشتركة

تم تقييم النموذج على مجموعة بيانات مشتركة تحتوي على بيانات من عميلين، وتظهر النتائج في الجدول أدناه. تُظهر طرق التجميع المختلفة اختلافات كبيرة في الأداء عبر البنى المختلفة.

مقارنة أداء أساليب تجميع التعلم الموحد على بنى ResNet-34 و DINOv2-Small، والتي تغطي أربع استراتيجيات اتحادية.

تجدر الإشارة إلى أن FedOpt يُظهر تقلبًا شديدًا: فهو يعمل بشكل سيئ للغاية على ResNet-34 (دقة متوازنة تبلغ 0.3638)، بينما يحافظ على أداء تنافسي على DINOv2-S (دقة متوازنة تبلغ 0.5594).وبالمقارنة، أظهر كل من FedAvg و FedProx أداءً مستقرًا نسبيًا على كلا النموذجين؛أظهر FedMedian أداءً متسقًا عبر البنيتين، حيث حقق دقة متوازنة بلغت 0.5738 لـ ResNet-34 و 0.5797 لـ DINOv2-S.

تُظهر النتائج أن التعلم الموحد يُحسّن الأداء بشكل ملحوظ، مما يُبرز مزايا التدريب التعاوني دون مشاركة البيانات مقارنةً بالنماذج المُدرَّبة باستخدام بيانات من مؤسسة واحدة فقط (58% مقابل 52%، دقة متوازنة). ورغم أن أداء النماذج الموحدة أقل قليلاً من أداء النماذج المُدرَّبة على جميع البيانات مركزياً، إلا أنها لا تزال تُحقق دقة مماثلة مع الحفاظ على خصوصية البيانات بشكل كامل.

② تقييم تعميم البيانات الموزعة خارجياً

أظهرت التقييمات التي أُجريت على مجموعة بيانات التحقق الخارجية للعميل 3 من برشلونة أن كلا الطريقتين الموحدتين (FedMedian وFedOpt) تتفوقان على التدريب المركزي على بيانات مؤسسية غير مرئية تمامًا (دقة متوازنة 67% مقابل 64%)، كما هو موضح في الجدول أدناه. وهذا يشير إلى أن...يساعد التعرض لخصائص مؤسسية غير متجانسة (مثل معدات التصوير، ومجموعات المرضى، وطرق التلوين) أثناء التدريب الموحد النموذج على تعلم خصائص مورفولوجية أكثر قابلية للتعميم.

درجة F1 على مستوى فئة التحقق الخارجي للعميل 3

أظهر FedMedian تحسينات كبيرة بشكل خاص في أقلية من أنواع الخلايا: العدلات الشريطية F1: 0.62 مقابل العدلات المركزية 0.30 (زيادة قدرها 1071 TP3T)، والخلايا النخاعية الأولية F1: 0.61 مقابل العدلات المركزية 0.35 (زيادة قدرها 741 TP3T).تُظهر النتائج أن السمات التشخيصية قد تم الحفاظ عليها بشكل فعال في ظل بروتوكولات مؤسسية مختلفة.ومع ذلك، لا يزال تحديد الخلايا النخاعية الميتا يمثل تحديًا لجميع الطرق (F1: 0.02–0.30)، مما يعكس الصعوبة الأساسية في تعلم تمثيلات قوية من فئات نادرة للغاية.

③ قانون التفاعل بين البنية واستراتيجية التجميع

حدد الباحثون كذلك تفاعلات رئيسية بين بنية الشبكة واستراتيجيات التجميع: يوفر FedMedian متانة عبر البنى المختلفة، ولكنه يضر بالفئات النادرة؛ بينما يُحسّن FedOpt من دقة إشارة الخلية في الفئات الأقل شيوعًا، ولكنه حساس لبنية الشبكة. تُظهر بنية Transformer المدربة مسبقًا في DINOv2-S متانة أعلى تجاه توزيعات البيانات غير المستقلة والمتطابقة التوزيع، في حين أن ResNet-34 أكثر حساسية لتضارب التدرجات.

بشكل عام، تضع هذه النتائج التعلم الموحد كإطار عمل قوي يحافظ على الخصوصية وقابل للتعميم لتحليل الصور الدموية.

يصبح التعلم الموحد مفتاحًا لكسر "صوامع البيانات" في مجال الرعاية الصحية.

التعلم الموحد هو نموذج تعاوني للتعلم الآلي مصمم لبيئات البيانات الموزعة. يقوم مفهومه الأساسي على تدريب النماذج بشكل مشترك دون مركزية البيانات الأصلية. في إطار التعلم الموحد، تقوم المؤسسات المشاركة (مثل المستشفيات والمختبرات ومراكز الأبحاث) بتدريب نماذجها محليًا، مع تحميل معلمات النموذج أو تحديثات التدرج فقط إلى خادم مركزي. يقوم الخادم بعد ذلك بتجميع هذه التحديثات، وإنشاء نموذج شامل، وتوزيعه على كل عقدة لمزيد من التدريب التكراري. من خلال هذه الآلية التي "تبقى فيها البيانات ضمن نطاقها وتتعاون فيها النماذج"،يُمكّن التعلم الموحد من تبادل المعرفة بين المؤسسات مع حماية خصوصية البيانات بشكل فعال وتلبية متطلبات الامتثال الصارمة للبيانات.

في السنوات القليلة الماضية، عملت العديد من المنظمات على تمكين قطاع الرعاية الصحية من خلال التعلم الموحد. ومن الأمثلة النموذجية على ذلك شركة أوكين، وهي شركة متكاملة في مجال التكنولوجيا الحيوية القائمة على الذكاء الاصطناعي، والتي حظيت بالتقدير كواحدة من أبرز 20 شركة ناشئة في مجال الذكاء الاصطناعي في فرنسا، وواحدة من أبرز الشركات الناشئة في مجال التكنولوجيا الطبية لعام 2023، وجائزة أفضل تقنية طبية، وواحدة من قائمة فوربس لأفضل 50 شركة في مجال الذكاء الاصطناعي.

تعمل شركة أوكين على تمكين تقنية الذكاء الاصطناعي لتحديد المؤشرات الحيوية المختلفة في بيانات المرضى متعددة الوسائط، وتصنيف المرضى إلى مجموعات فرعية، ومطابقة كل مريض مع أفضل هدف علاجي، وتعزيز تطوير الأدوية المستهدفة، وتحسين أدوات تشخيص الأمراض، وتحقيق الطب الشخصي الحقيقي.إن مفتاح تحقيق الأهداف المذكورة أعلاه يكمن في كيفية مشاركة البيانات مع ضمان خصوصية بيانات المرضى؟لمعالجة هذه المشكلة، تستخدم شركة أوكين التعلم الموحد. ولتشجيع تبني هذه التقنية، أتاحت أوكين برنامجها للتعلم الموحد، سابسترا، كمصدر مفتوح، والذي يمكن استخدامه في البحوث السريرية وتطوير الأدوية وغيرها من التطبيقات.
عنوان المصدر المفتوح:

https://github.com/substra

في مجال التصوير الطبي، يُعدّ التعلّم الموحّد نهجًا تقنيًا أساسيًا للتغلب على تحديات "عزلة البيانات" والامتثال لقوانين الخصوصية. فبيانات التصوير الطبي بالغة الحساسية، إذ تتعلق بخصوصية المرضى وتخضع لأنظمة صارمة (مثل اللائحة العامة لحماية البيانات GDPR وقانون HIPAA). غالبًا ما يواجه التدريب المركزي التقليدي عقبات عملية كالموافقات الأخلاقية والمخاطر القانونية والقيود المفروضة على نقل البيانات عبر الحدود. يُمكّن التعلّم الموحّد مستشفيات مختلفة من تدريب النماذج بشكل مشترك دون مشاركة بيانات التصوير الخام، ما يُحسّن قدرة النموذج على التعميم عبر مختلف الأجهزة وبروتوكولات التلوين وفئات المرضى.أظهرت الأبحاث الحالية أن التعلم الموحد يمكن أن يحقق أداء تعميم عبر المؤسسات يقترب من أداء التدريب المركزي أو حتى يتجاوزه في مجالات مثل التصوير الإشعاعي وعلم الأمراض الرقمي والتصوير بالموجات فوق الصوتية.يُظهر متانة أقوى، خاصة في اختبار البيانات الخارجية.

من منظور أوسع، يُصبح نموذج "الذكاء التعاوني الموزع"، الذي يُمثله التعلم الموحد، بنيةً أساسيةً لنشر الذكاء الاصطناعي الطبي على نطاق واسع في المستقبل. فهو لا يُوفر فقط مسارًا عمليًا لتدريب نماذج طبية واسعة النطاق تحافظ على الخصوصية، بل يُرسي أيضًا الأساس التكنولوجي لأنظمة دعم القرار السريري العابرة للمؤسسات ومنصات البحث الطبي التعاوني العالمية. وفي مجالات مُحددة، مثل تحليل مورفولوجيا الدم، يُتوقع أن يدفع التعلم الموحد الذكاء الاصطناعي من تطبيقات المختبرات أحادية المؤسسة إلى خدمات تشخيصية ذكية سريرية عابرة للمناطق والأنظمة، مما يُوفر دعمًا رئيسيًا للطب الدقيق والرعاية الصحية الرقمية.

مراجع:
1.https://arxiv.org/abs/2601.04121
2.https://mp.weixin.qq.com/s/Lf6N7EUHlhibLNc9YXWjTQ