HyperAI

تم اختياره لـ AAAI 2025! لحل مشكلة الحدود الناعمة والتواجد المشترك في تقسيم الصور الطبية، اقترحت جامعة الصين للعلوم الجيولوجية وآخرون نموذج تقسيم الصور ConDSeg

特色图像

تعد عملية تقسيم الصور الطبية خطوة بالغة الأهمية ومعقدة في مجال معالجة الصور الطبية. يقوم بشكل أساسي باستخراج أجزاء ذات معاني خاصة من الصور الطبية لتوفير الدعم للتشخيص السريري وعلاج إعادة التأهيل وتتبع الأمراض. في السنوات الأخيرة، وبدعم من أجهزة الكمبيوتر والذكاء الاصطناعي، أصبحت طرق التجزئة القائمة على التعلم العميق تدريجيًا الطريقة السائدة لتجزئة الصور الطبية، كما ازدهرت نتائجها ذات الصلة أيضًا.

من بين النتائج المختارة التي تم الإعلان عنها في المؤتمر السنوي التاسع والثلاثين للذكاء الاصطناعي التابع للجمعية الأمريكية للذكاء الاصطناعي (AAAI 2025)، وهو المؤتمر الدولي الأبرز للذكاء الاصطناعي، أظهرت بعض الأوراق مرة أخرى التقدم المثمر في تقسيم الصور الطبية الآلية.وقد حظيت إحدى النتائج، "ConDSeg: إطار عمل تقسيم الصور الطبية العامة عبر تعزيز الميزات القائمة على التباين"، والتي أصدرها فريق مشترك من جامعة الصين للعلوم الجيولوجية وبايدو، باهتمام واسع النطاق.

ولمعالجة التحديين الرئيسيين المتمثلين في "الحدود الناعمة" وظواهر التزامن في مجال تقسيم الصور الطبية، اقترح الباحثون إطارًا عامًا يسمى ConDSeg لتقسيم الصور الطبية المعتمد على التباين. يقدم هذا الإطار بشكل مبتكر استراتيجية تدريب تعزيز الاتساق (CR)، ووحدة فصل المعلومات الدلالية (SID)، ووحدة تجميع الميزات المدفوعة بالتباين (CDFA)، وفك التشفير المدرك للحجم (Size-Aware Decoder، SA-Decoder)، وما إلى ذلك، لتحسين دقة نموذج تقسيم الصور الطبية بشكل أكبر.

عنوان الورقة:
https://arxiv.org/abs/2412.08345

يجمع مشروع المصدر المفتوح "awesome-ai4s" أكثر من 200 تفسير لورقة AI4S ويوفر مجموعات بيانات وأدوات ضخمة:

https://github.com/hyperai/awesome-ai4s

تواجه دقة تقسيم الصور الطبية تحديين رئيسيين

خلال العقد الماضي، ساعد صعود الذكاء الاصطناعي في التطوير السريع للتجزئة الآلية للصور الطبية، مما أدى إلى تحرير الأطباء والباحثين من المهام الشاقة. ومع ذلك، ونظراً لتعقيد واحترافية الصور الطبية، لا يزال هناك طريق طويل لنقطعه لتحقيق تجزئة الصور بشكل آلي بالكامل، وتشكل الدقة تحدياً مهماً لا يمكن تجاهله، لأنه بمجرد فقدان الدقة، تصبح الأتمتة غير واردة.

من المنظور الحالي،تشكل "الحدود الناعمة" وظواهر التواجد المشترك في الصور الطبية المشاكل الرئيسية التي تعيق تحسين دقة تقسيم الصور الطبية.

التحديات الرئيسية لتجزئة الصور الطبية

أولاً، بالمقارنة مع الصور الطبيعية ذات الحدود الواضحة بين المقدمة والخلفية، فإن الصور الطبية غالباً ما تحتوي على "حدود ناعمة" غامضة بين المقدمة (مثل السلائل والغدد والآفات وما إلى ذلك) والخلفية. السبب الرئيسي وراء ذلك هو وجود منطقة انتقالية بين الأنسجة المرضية والأنسجة الطبيعية المحيطة، مما يجعل من الصعب تحديد الحدود. بالإضافة إلى ذلك، في معظم الحالات، تؤدي تأثيرات الإضاءة الضعيفة والتباين المنخفض الذي تظهره الصور الطبية إلى مزيد من طمس الحدود بين الأنسجة المرضية والأنسجة الطبيعية، مما يجعل من الصعب التمييز بين الحدود.

ثانياً، على عكس الأشياء التي تظهر عشوائياً في المشاهد الطبيعية، تكون الأعضاء والأنسجة في الصور الطبية ثابتة ومنتظمة للغاية، لذلك هناك أيضاً ظاهرة التواجد المشترك على نطاق واسع، أي أن سمات الصورة أو الأنسجة أو الآفات المختلفة تظهر في الصور الطبية في نفس الوقت. على سبيل المثال، في صور الأورام الحميدة بالمنظار، غالبًا ما تظهر الأورام الحميدة الصغيرة جنبًا إلى جنب مع الأورام الحميدة ذات الحجم المماثل، مما يجعل من السهل جدًا على النموذج تعلم بعض ميزات التواجد المشترك التي لا تتعلق بالأورام الحميدة. ومع ذلك، عندما يظهر النسيج المرضي بمفرده، فإن النموذج غالبا ما لا يتمكن من تقديم تنبؤات دقيقة.

ولمعالجة التحديات المذكورة أعلاه، ركزت المزيد والمزيد من أساليب البحث على هذا الموضوع في السنوات الأخيرة. على سبيل المثال، أصدر فريق الأستاذ المشارك يوي قوانغ هوي من كلية الهندسة الطبية الحيوية، كلية الطب، جامعة شنتشن، شبكة قيود حدودية BCNet يمكن استخدامها لتجزئة الأورام الحميدة بدقة. ويشير إلى وحدة استخراج الحدود الثنائية التي يمكنها التقاط الحدود من خلال الجمع بين الميزات السياقية الضحلة وميزات الموضع عالية المستوى والإشراف الإضافي على حدود البوليب. تم نشر هذه النتيجة في مجلة IEEE للمعلوميات الطبية والصحية تحت عنوان "شبكة قيود الحدود مع تكامل الميزات عبر الطبقات لتجزئة الاورام الحميدة".

عنوان الورقة:

https://ieeexplore.ieee.org/document/9772424

على سبيل المثال، اقترح فريق البروفيسور دينغانغ شين، العميد المؤسس لكلية الهندسة الطبية الحيوية في جامعة شنغهاي للتكنولوجيا، وآخرون شبكة تجميع الميزات عبر المستويات CFA-Net، والتي يمكن استخدامها لتجزئة الأورام الحميدة. يقوم بتصميم شبكة تنبؤ بالحدود لتوليد ميزات تدرك الحدود ويستخدم استراتيجية هرمية لدمج هذه الميزات في شبكة التجزئة. تم نشر هذه النتيجة في مجلة Pattern Recognition تحت عنوان "شبكة تجميع الميزات عبر المستويات لتجزئة البوليب".
عنوان الورقة:
https://www.sciencedirect.com/science/article/abs/pii/S0031320323002558

ومع ذلك، وعلى الرغم من أن هذه الأساليب تعمل جميعها على تحسين اهتمام النموذج بالحدود من خلال إدخال الإشراف المرتبط بالحدود بشكل صريح، فإنها لم تكن قادرة على تعزيز قدرة النموذج على تقليل عدم اليقين بشكل تلقائي في المناطق الغامضة. لذلك، في البيئات القاسية، لا تزال قوة هذه الأساليب ضعيفة ولا تزال هناك قيود على تحسين أداء النموذج. وفي الوقت نفسه، يظل عدم القدرة على التمييز بدقة بين المقدمة والخلفية، وكذلك بين الكيانات المختلفة في الصورة، مشكلة تواجهها معظم النماذج.

مختلفة عن الطرق السابقة،في دراسة أجراها فريق من جامعة الصين للعلوم الجيولوجية وبايدو، اقترح الباحثون إطارًا عامًا يسمى ConDSeg لتجزئة الصور الطبية المعتمدة على التباين.وتتمثل الابتكارات المحددة فيما يلي:

* ردًا على اختبار المتانة في البيئات القاسية، اقترح الباحثون استراتيجية تدريب مسبق لتعزيز الاتساق (CR) لتعزيز متانة المبرمج واستخراج ميزات عالية الجودة. في الوقت نفسه، يمكن لوحدة فصل المعلومات الدلالية (SID) فصل خرائط الميزات إلى مناطق المقدمة والخلفية وغير المؤكدة، وتعلم كيفية تقليل عدم اليقين أثناء التدريب من خلال دالة خسارة مصممة خصيصًا.

* تعمل وحدة تجميع الميزات المعتمدة على التباين (CDFA) المقترحة على توجيه عملية دمج وتعزيز الميزات متعددة الطبقات من خلال ميزات التباين المستخرجة بواسطة SID. يهدف فك التشفير المعتمد على الحجم (SA-Decoder) إلى التمييز بشكل أفضل بين الكيانات المختلفة في الصورة وإجراء تنبؤات منفصلة للكيانات ذات الأحجام المختلفة للتغلب على تداخل الميزات المشتركة.

تتيح الابتكارات الأربعة الرئيسية لشركة ConDSeg تحسين دقة تقسيم الصور الطبية

إجمالي،إن ConDSeg المقترح في هذه الدراسة هو إطار عمل عام لتجزئة الصور الطبية مع بنية من مرحلتين.كما هو موضح في الشكل التالي:

مخطط تخطيطي للإطار العام لـ ConDSeg

في المرحلة الأولى،يهدف البحث إلى تعظيم قدرة استخراج الميزات ومتانة المبرمج في المشاهد ذات الإضاءة المنخفضة والتباين المنخفض.

قام الباحثون بتقديم استراتيجية التدريب المسبق CR لإجراء تدريب أولي على المبرمج، وفصل المبرمج عن الشبكة بأكملها، وصمموا رأس تنبؤ بسيط (قناع التنبؤ). من خلال إدخال الصورة الأصلية (الأصلية) والصورة المحسنة (القوة القوية) في المشفر، يتم تعظيم الاتساق بين الأقنعة المتوقعة، ويتم تعزيز قوة المشفر تحت تحديات الإضاءة والتباين المختلفة، ويتم تحسين قدرته على استخراج ميزات عالية الجودة في البيئات القاسية. تتضمن طرق التحسين تغيير السطوع والتباين والتشبع والصبغة بشكل عشوائي، بالإضافة إلى التحويل العشوائي إلى صور بدرجات الرمادي وإضافة التمويه الغاوسي.

ومن الجدير بالذكر أيضًا أن فقدان الاتساق Lcons الذي اقترحه فريق البحث تم تصميمه بناءً على دقة التصنيف على مستوى البكسل. ويستخدم عمليات ثنائية بسيطة وحساب خسارة الإنتروبيا الثنائية المتبادلة (BCE) لمقارنة الاختلافات على مستوى البكسل بين الأقنعة المتوقعة بشكل مباشر. تعتبر هذه الطريقة أبسط حسابيًا وتتجنب عدم الاستقرار العددي، مما يجعلها أكثر ملاءمة للبيانات واسعة النطاق.

وفي المرحلة الثانية،تم ضبط الشبكة بأكملها، وتم ضبط معدل التعلم للمشفر على مستوى منخفض. وتنقسم إلى 4 خطوات:

* استخراج الميزات، يقوم مشفر ResNet-50 باستخراج خرائط الميزات f₁ إلى f₄ بمعلومات دلالية مختلفة على مستويات مختلفة.

* فصل المعلومات الدلالية: يتم إدخال خريطة الميزات f₄ التي تحمل معلومات دلالية عميقة إلى SID وفصلها إلى خريطة ميزات تحتوي على معلومات المقدمة والخلفية والمنطقة غير المؤكدة. يبدأ SID بثلاثة فروع متوازية، يتكون كل منها من وحدات CBR متعددة. بعد إدخال خريطة الميزات f₄ في الفروع الثلاثة، يتم الحصول على ثلاث خرائط ميزات بمعلومات دلالية مختلفة، والتي يتم إثرائها بميزات المقدمة والخلفية والمنطقة غير المؤكدة على التوالي. بعد ذلك، يتنبأ رأس مساعد بخرائط الميزات الثلاث ويولد أقنعة للمقدمة والخلفية والمنطقة غير المؤكدة. من خلال قيود دالة الخسارة، يعمل تعلم SID على تقليل عدم اليقين وتحسين دقة القناع بين المقدمة والخلفية. كما هو موضح في الشكل التالي:

هيكل رأس مساعد SID


* تجميع الميزات: يتم إدخال خرائط الميزات f₁ إلى f₄ في وحدة CDFA، ويتم دمج خرائط الميزات متعددة المستويات تدريجيًا استنادًا إلى خرائط الميزات المنفصلة لتحسين تمثيل ميزات المقدمة والخلفية. لا يستخدم CDFA ميزات التباين بين المقدمة والخلفية التي تم فصلها بواسطة SID لتوجيه اندماج الميزات متعددة المستويات فحسب، بل يساعد النموذج أيضًا على التمييز بشكل أفضل بين الكيانات التي سيتم تقسيمها وبيئة الخلفية المعقدة. كما هو موضح في الشكل التالي:

هيكل CDFA

* التنبؤ متعدد المقاييس، أنشأ الباحثون ثلاثة أجهزة فك تشفير ذات أحجام صغيرة ومتوسطة وكبيرة - جهاز فك التشفير ₛ وجهاز فك التشفير ₘ وجهاز فك التشفير ₗ على التوالي يستقبلون الإخراج من CDFA على مستوى معين، ثم يحددون كيانات متعددة في الصورة وفقًا للحجم. يتم دمج مخرجات كل فك تشفير لإنتاج القناع النهائي، بحيث يمكن للنموذج تقسيم الكيانات الكبيرة بدقة وتحديد موقع الكيانات الصغيرة بدقة، مما يمنع تعلم ظواهر التواجد المشترك بشكل غير صحيح وحل مشكلة تفرد مقياس فك التشفير. كما هو موضح في الشكل التالي:

مخطط هيكل فك التشفير SA

من أجل التحقق من أداء ConDSeg في مجال تقسيم الصور الطبية،قام الباحثون باختيار خمس مجموعات بيانات عامة (Kvasir-SEG، Kvasir-Sessile، GlaS، ISIC-2016، ISIC-2017، كما هو موضح في الشكل أدناه) لاختبار ثلاث مهام للصور الطبية (التنظير الداخلي، وصور الشريحة الكاملة، وتنظير الجلد). قام الباحثون بتغيير حجم الصور إلى 256 × 256 بكسل وضبطوا حجم الدفعة إلى 4. وتم استخدام محسن Adam للتحسين.

تفاصيل مجموعات البيانات الخمس

تتضمن كائنات المقارنة الرئيسية الطرق الأكثر تقدمًا مثل U-Net و U-Net++ و Attn U-Net و CENet و CPFNet و PraNet و FATNet و TGANet و DCSAUNet و XBoundFormer و CASF-Net و EIU-Net و DTAN.وتظهر النتائج أن الطريقة المقترحة تحقق أفضل أداء للتجزئة على جميع مجموعات البيانات الخمس.كما هو موضح في الشكل التالي:

مقارنة مع نماذج أخرى على مجموعات بيانات Kvasir-Sessile وKvasir-SEG وGlaS
مقارنة مع نماذج أخرى على مجموعات بيانات ISIC-2016 وISIC-2017

بالإضافة إلى ذلك، قام الباحثون أيضًا بمقارنة منحنيات التقارب التدريبية مع طرق أخرى على مجموعة بيانات Kvasir-SEG. وأظهرت النتائج أن ConDSeg يمكن أن يصل إلى مستويات متقدمة حتى مع مرحلة تدريب واحدة فقط، وعند استخدام إطار ConDSeg الكامل، حققت هذه الطريقة أسرع سرعة تقارب وأفضل أداء. كما هو موضح في الشكل أدناه.

مقارنة منحنيات تقارب التدريب مع طرق أخرى على مجموعة بيانات Kvasir-SEG

أصبحت عملية تقسيم الصور الطبية موضوعًا ساخنًا لرأس المال والتكنولوجيا

تلعب تقسيمات الصور الطبية دورًا مهمًا في كل من الطب السريري والبحث الطبي. لقد قامت أنظمة الذكاء الاصطناعي المدربة خصيصًا بتحويل طرق تقسيم الصور الطبية التقليدية بكفاءتها العالية وذكائها، مما يجعلها أداة مساعدة لا غنى عنها للطاقم الطبي والباحثين العلميين. السبب وراء تحقيق هذا التطور والنتائج في مجال تقسيم الصور الطبية يرجع إلى الدفع المزدوج لرأس المال والتكنولوجيا.

من حيث رأس المال، أصبح مجال الذكاء الاصطناعي والطب الحيوي متعدد التخصصات موضوعًا ساخنًا في مجتمع الاستثمار في السنوات الأخيرة، وهذا العام، قاد التصوير الطبي المعتمد على الذكاء الاصطناعي إلى تحقيق بداية ناجحة. في 28 يناير، أعلنت شركة التصوير الطبي الإسبانية Quibim أنها أكملت تمويلًا من الفئة A بقيمة 50 مليون دولار أمريكي (حوالي 360 مليون يوان صيني). ومن الجدير بالذكر أن التكنولوجيا الأساسية لشركة Quibim هي تحليل الذكاء الاصطناعي استنادًا إلى بيانات التصوير الطبي، كما أن QP-Liver هي أداة تقسيم آلية لتشخيص أمراض الكبد المنتشرة بالرنين المغناطيسي.

من حيث التكنولوجيا، كان الجمع بين الذكاء الاصطناعي وتجزئة الصور الطبية منذ فترة طويلة أحد محاور البحث في المختبرات الكبرى. على سبيل المثال، اقترح فريق من مختبر علوم الكمبيوتر والذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا (MIT CSAIL)، بالتعاون مع باحثين من مستشفى ماساتشوستس العام وكلية الطب بجامعة هارفارد، نموذجًا عامًا لتجزئة الصور الطبية الحيوية التفاعلية، ScribblePrompt، والذي يدعم المعلقين باستخدام طرق شرح مختلفة مثل الكتابة على الجدران والنقر والمربعات المحددة لأداء مهام تجزئة الصور الطبية الحيوية بمرونة، حتى بالنسبة للعلامات وأنواع الصور غير المدربة.

وقد تم قبول النتائج ذات الصلة، والتي تحمل عنوان "ScribblePrompt: التجزئة التفاعلية السريعة والمرنة لأي صورة طبية حيوية"، من قبل المؤتمر الأكاديمي الدولي الرائد ECCV 2024.
عنوان الورقة:
https://arxiv.org/pdf/2312.07381

بالإضافة إلى ذلك، بناءً على SAM 2 الذي أصدرته Meta، قام فريق جامعة أكسفورد بتطوير نموذج تقسيم الصور الطبية المسمى Medical SAM 2 (MedSAM-2)، والذي يتعامل مع الصور الطبية كمقاطع فيديو. إنه لا يعمل بشكل جيد في مهام تقسيم الصور الطبية ثلاثية الأبعاد فحسب، بل يفتح أيضًا إمكانية تقسيم جديدة بإشارة واحدة. كل ما يحتاجه المستخدم هو تقديم تلميح لكائن محدد جديد، ويمكن إكمال عملية تقسيم الكائنات المشابهة في الصور اللاحقة تلقائيًا بواسطة النموذج دون الحاجة إلى إدخال إضافي.

*انقر هنا لمشاهدة التقرير المفصل: إطلاق أحدث تطبيق SAM 2! أصدر فريق جامعة أكسفورد برنامج Medical SAM 2، وهو تحديث لقائمة SOTA لتجزئة الصور الطبية

باختصار، الذكاء الاصطناعي لم يعد مجرد تكنولوجيا متطورة. وقد أكد تطوير التجزئة الآلية للصور الطبية إمكانات الذكاء الاصطناعي في المجال الطبي الحيوي، كما تم التحقق من جدواها التجارية من خلال قصة رأس المال واحدة تلو الأخرى. في المستقبل، وباعتبارها الحلقة الأكثر أهمية في مجال التصوير الطبي، فإن تقسيم الصور الطبية سوف يستفيد بالتأكيد من الذكاء الاصطناعي ويسير على المسار السريع للتطور. وسيتم أيضًا إدخال رأس المال إلى السوق الطبية الحيوية الأوسع بسبب النجاح في مجال تقسيم الصور الطبية، مما يحقق حلقة مغلقة مثالية من التكنولوجيا ورأس المال والأعمال.