تم اختياره لـ AAAI 2025! يمكنه تحقيق محاذاة ودمج الصور الطبية المتعددة الوسائط. اقترحت جامعتان محليتان كبيرتان بشكل مشترك برنامج BSAFusion

في نهاية عام 2024، أعلن مؤتمر AAAI السنوي التاسع والثلاثون حول الذكاء الاصطناعي (AAAI 2025)، وهو المؤتمر الدولي الأبرز للذكاء الاصطناعي، عن نتائج قبول الأوراق البحثية لهذا المؤتمر. وفي النهاية، من بين 12,957 بحثًا مقدمًا، برزت 3,032 ورقة وتم تضمينها، مع معدل قبول بلغ 23.4% فقط.
في،مشروع بحثي مشترك أجراه لي هوافينج، وتشانغ يافي، وسو دايونج من كلية هندسة المعلومات والأتمتة بجامعة كونمينغ للعلوم والتكنولوجيا، وكاي تشينغ من كلية علوم الكمبيوتر والتكنولوجيا بقسم علوم المعلومات والهندسة بجامعة المحيط الصينية.——"BSAFusion: شبكة محاذاة ميزات ثنائية الاتجاه خطوة بخطوة لدمج الصور الطبية غير المحاذية"، جذبت انتباه الباحثين في مجال الذكاء الاصطناعي للعلوم.يركز هذا الموضوع على مجال معالجة الصور الطبية، والذي كان ساخنًا بشكل غير مسبوق في السنوات الأخيرة، ويقترح طريقة دمج الصور الطبية غير المحاذاة ثنائية الاتجاه (BSFA).
وبالمقارنة بالطرق التقليدية، نجحت هذه الدراسة في تحقيق محاذاة ودمج متزامنين للصور الطبية المتعددة الوسائط غير المتوافقة من خلال نهج من مرحلة واحدة ضمن إطار معالجة موحد. فهو لا يحقق تنسيق المهام المزدوجة فحسب، بل يقلل أيضًا بشكل فعال من مشكلة تعقيد النموذج الناجم عن إدخال العديد من برامج ترميز الميزات المستقلة.

اتبع الحساب الرسمي ورد على "صور طبية متعددة الوسائط" للحصول على ملف PDF كامل
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
التركيز الطبي—دمج الصور الطبية متعددة الوسائط
ما يسمى بدمج الصور الطبية المتعددة الوسائط (MMIF)ويهدف هذا إلى دمج بيانات الصور الطبية من طرق التصوير المختلفة، مثل التصوير المقطعي المحوسب، والتصوير بالرنين المغناطيسي، والتصوير المقطعي بالإصدار البوزيتروني، وما إلى ذلك، لإنشاء صور جديدة تحتوي على معلومات أكثر شمولاً ودقة عن الآفة. ويعد البحث في هذا الاتجاه ذا قيمة كبيرة في الطب الحديث والتطبيقات السريرية.
السبب بسيط. بعد عقود من التطور التكنولوجي والتراكم، لم يصبح التصوير الطبي أكثر تنوعًا في الشكل فحسب، بل أصبح أيضًا أكثر استخدامًا على نطاق واسع. على سبيل المثال، عندما يتعرض الأشخاص للسقوط الشديد، فإن أول ما يفكرون فيه هو الذهاب إلى المستشفى لإجراء "أشعة سينية" لتحديد ما إذا كانوا يعانون من كسور. يشير مصطلح "التصوير بالأشعة السينية" عادةً إلى فحوصات التصوير الطبي مثل الأشعة السينية أو التصوير المقطعي المحوسب أو التصوير بالرنين المغناطيسي.
ومع ذلك، فمن الواضح أنه لا يكفي استخراج معلومات كافية لضمان دقة التشخيص السريري من خلال صورة طبية واحدة في الطب السريري، وخاصة عند مواجهة أمراض صعبة ومعقدة، مثل الأورام والخلايا السرطانية، وما إلى ذلك. وقد أصبح دمج الصور الطبية المتعددة الوسائط أحد الاتجاهات المهمة في تطوير التصوير الطبي الحديث. يقوم دمج الصور الطبية المتعددة الوسائط بدمج الصور من أوقات ومصادر مختلفة في نظام إحداثيات واحد للتسجيل، مما لا يحسن كفاءة تشخيص الأطباء فحسب، بل يولد أيضًا معلومات أكثر قيمة، والتي يمكن أن تساعد الأطباء على إجراء مراقبة أكثر احترافية للأمراض وتوفير خطط علاج فعالة.
قبل تطبيق الصور الطبية، لاحظ العديد من الباحثين مشكلة دمج الصور واستكشفوا بشكل أكبر طرق دمج تسجيل الصور متعددة المصادر ودمجها في إطار موحد، مثل MURF الشهير. هذه هي الطريقة الأولى لمناقشة وحل تسجيل الصور والاندماج في بعد واحد. تتضمن وحداتها الأساسية وحدة استخراج المعلومات المشتركة، ووحدة التسجيل الخشن متعدد المقاييس، ووحدة التسجيل الدقيق والاندماج.
ومع ذلك، وكما ذكر أعلاه، أولاً، هذه الأساليب ليست مصممة لدمج الصور الطبية متعددة الوسائط، وهي لا تظهر المزايا المتوقعة في مجال التصوير الطبي؛ ثانيًا، لا تستطيع هذه الأساليب حل التحدي الأكثر أهمية الذي يواجهنا في دمج الصور الطبية المتعددة الوسائط:مشكلة عدم التوافق بين الميزات المستخدمة للاندماج والميزات المستخدمة للمحاذاة.
على وجه التحديد، يتطلب محاذاة الميزات أن تكون الميزات المقابلة متسقة، في حين يتطلب دمج الميزات أن تكون الميزات المقابلة متكاملة.
وهذا ليس من الصعب فهمه في الواقع. محاذاة الميزة هي تحقيق المطابقة والتوافق بين البيانات النموذجية المختلفة على مستوى الميزة من خلال وسائل تقنية مختلفة؛ في حين أن دمج الميزات يعني القدرة على الاستفادة الكاملة من التكامل بين الوسائط المختلفة، وذلك لدمج المعلومات المستخرجة من الوسائط المختلفة في نموذج متعدد الوسائط مستقر.
ولذلك، يمكن تصور الصعوبة التي تواجه MMIF. لا ينبغي أن يقوم شخص ما بملء هذه الفجوة فحسب، بل يجب أيضًا أن يكون قادرًا على البناء على عمل السابقين لجعل دمج الصور الطبية المتعددة الوسائط أكثر كفاءة وراحة. في الورقة،وقد أعرب كل من فريق البروفيسور لي هوافينج وفريق البروفيسور المشارك كاي تشينغ عن هذه النية الأصلية ووضعوها موضع التنفيذ من خلال التجارب البحثية.
ومن الناحية الفنية، تقترح هذه الطريقة عدة تصاميم ذات قيمة مبتكرة:
* أولاً، من خلال مشاركة مُرمِّز الميزات، تحل هذه الطريقة مشكلة زيادة تعقيد النموذج الناجم عن تقديم مُرمِّزات إضافية للمحاذاة، وتصمم بنجاح إطار عمل موحد وفعال يدمج محاذاة الميزات عبر الوسائط والاندماج، مما يحقق محاذاة واندماجًا سلسًا.
* ثانيًا، تم دمج طريقة تمثيل الميزة الخالية من التناقضات النمطية (MDF-FR) لتحقيق تكامل الميزة العالمي من خلال ربط رأس تمثيل ميزة النمط (MFRH) بكل صورة إدخال، مما يقلل بشكل كبير من تأثير اختلافات النمط وعدم تناسق المعلومات متعددة الأنماط على محاذاة الميزة.
* أخيرًا، تم اقتراح استراتيجية للتنبؤ بحقل التشوه ثنائي الاتجاه خطوة بخطوة تعتمد على استقلال مسار إزاحة المتجه بين نقطتين، والتي يمكنها حل مشاكل الامتداد الكبير والتنبؤ غير الدقيق بحقل التشوه التي واجهتها طريقة المحاذاة التقليدية ذات المرحلة الواحدة بشكل فعال.
BSAFusion رائدة في اتجاه تكنولوجي جديد لدمج الصور الطبية
إطار عمل التسجيل والاندماج للصور الطبية متعددة الوسائط في مرحلة واحدة الذي اقترحه فريق البحث،يتكون بشكل أساسي من ثلاثة مكونات أساسية وهي MDF-FR وBSFA وMMFF (اندماج الميزات المتعددة الوسائط).وتظهر التفاصيل في الشكل أدناه.

ليس من الصعب أن نرى ذلك في MDF-FR،تشكل طبقات Restormer وTransformer مشفر الشبكة لاستخراج الميزات من أزواج الصور غير المحاذاة، حيث تحتوي كل من Restormer وTransformer على طبقتين. بعد محاذاة الميزات ودمجها، يتم إدخال الميزات في MLP اللاحقة للحصول على نتائج التنبؤ.
هنا، نظرًا لأن الطريقتين مختلفتان تمامًا، فإن المطابقة بين الطرق والتنبؤ بمجال التشوه لهذه الميزات ستواجه أيضًا تحديات كبيرة. لذلك، من خلال إنشاء رؤوس تمثيل ميزات خاصة بالوسيلة، يمكننا تقليل تأثير اختلافات الوسيلة على التنبؤ بمجال التشوه ومنع فقدان المعلومات غير المشتركة بسبب استخراج المعلومات المشتركة.
وفي وقت لاحق، واصل الفريق استخدام النقل أ والنقل ب لإزالة الاختلافات بين الأوضاع. تتكون كل كتلة نقل من طبقتين للمحول، ولا تتم مشاركة أي معلمات بينهما، من أجل استخراج الميزات اللازمة للتنبؤ بموقع التشوه.
الوصول إلى BSFA،قام فريق البحث بتصميم حقل تشوه للتنبؤ بميزات الصورة المدخلة من اتجاهين - طريقة محاذاة الميزات ثنائية الاتجاه خطوة بخطوة. تم تصميم عملية التنبؤ بحقل التشوه المكون من خمس طبقات للتنبؤات الأمامية والعكسية، والتي تتوافق مع العقد الخمس الوسيطة المدرجة بين صورتي مصدر الإدخال. تعمل هذه الطريقة على تعزيز قوة عملية المحاذاة بشكل عام. الطبقة المسؤولة عن التسجيل الأمامي هي FRL، والطبقة المسؤولة عن التسجيل العكسي هي RRL.
وأخيرًا، في وحدة MMFF،يتم تطبيق حقل التشوه المتوقع لمحاذاة الميزات، ثم يتم استخدام وحدات FusionBLK المتعددة لدمج الميزات. وأخيرًا، يتم الحصول على الصورة المندمجة من خلال طبقة إعادة البناء، ويتم استخدام وظائف الخسارة المختلفة لتحسين معلمات الشبكة.
وبطبيعة الحال، من أجل ضمان فعالية ودقة التجربة، قام فريق البحث بترتيبات دقيقة بشأن تفاصيل التجربة. وفي التجارب المبنية على هذا النموذج، اتبع فريق البحث بروتوكول الطرق الموجودة.تم استخدام مجموعات بيانات التصوير بالرنين المغناطيسي المقطعي المحوسب (CT-MRI)، والتصوير بالرنين المغناطيسي بالإصدار البوزيتروني (PET-MRI)، والتصوير بالرنين المغناطيسي بالإصدار الفوتوني المفرد (SPECT-MRI) من جامعة هارفارد لتدريب النموذج.تتكون مجموعات البيانات هذه من 144 و194 و261 زوجًا من الصور المسجلة بدقة على التوالي، وحجم كل زوج من الكائنات هو 256 × 256.
من أجل محاكاة أزواج الصور غير المحاذاة التي تم جمعها في السيناريوهات الحقيقية، تم تحديد صور التصوير بالرنين المغناطيسي بشكل خاص كمراجع في هذه التجربة، وتم تطبيق مزيج من التشوهات الصلبة وغير الصلبة على الصور غير التصويرية بالرنين المغناطيسي لإنشاء مجموعة التدريب المطلوبة. بالإضافة إلى ذلك، قام فريق البحث أيضًا بتطبيق نفس التشوه على 20 و 55 و 77 زوجًا من الصور المسجلة بدقة لبناء مجموعة اختبار غير محاذاة.
تعتمد عملية التدريب على أسلوب شامل، حيث يتم تدريب 3000 حقبة على كل مجموعة بيانات بحجم دفعة يبلغ 32. وفي الوقت نفسه، يتم استخدام مُحسِّن Adam لتحديث معلمات النموذج بمعدل تعلم أولي يبلغ 5 × 10⁻⁵. استخدم معدل تعلم التلدين لجيب التمام (LR)، والذي ينخفض إلى 5 × 10⁻⁷ بمرور الوقت.
تم استخدام إطار عمل PyTorch في التجارب وتم تدريبها على وحدة معالجة رسومية واحدة من نوع NVIDIA GeForce RTX 4090.
وبناءً على التفاصيل التجريبية الدقيقة التي توصل إليها فريق البحث ومجموعات البيانات القياسية للتدريب، أظهرت هذه الطريقة أيضًا نتائج ممتازة في التجارب التجريبية.
تتضمن مقارنة التجارب خمس طرق تسجيل مشتركة هي الأكثر تقدمًا، بما في ذلك UMF-CMGR، وsuperFusion، وMURF، وIMF، وPAMRFuse. باستثناء المجموعة الأخيرة، فإن المجموعات الأربع الأولى ليست مصممة خصيصًا لدمج الصور الطبية متعددة الوسائط، ولكنها حاليًا أفضل طرق دمج الصور وهي مناسبة لـ MMIF. كما هو موضح في الشكل التالي:


النتائج واضحة. وتظهر الطريقة التي اقترحها فريق البحث تفوقًا أقوى من حيث محاذاة الميزات والحفاظ على التباين والاحتفاظ بالتفاصيل، ولديها أفضل أداء متوسط بين جميع المؤشرات.
تعمل الفرق معًا لحماية التطبيقات السريرية الطبية
أحد المؤلفين المراسلين لموضوع البحث هذا هو كاي تشينغ، أستاذ مشارك في كلية علوم الكمبيوتر والتكنولوجيا، كلية علوم وهندسة المعلومات، جامعة المحيط الصينية. بالإضافة إلى عمله في جامعة المحيط الصينية، فهو يشغل أيضًا مناصب مهمة في العديد من المؤسسات الأكاديمية المهمة مثل اتحاد الكمبيوتر الصيني (CCF).
المجالات البحثية الرئيسية للأستاذ كاي تشينغ هي التعلم العميق، ورؤية الكمبيوتر، ومعالجة الصور الطبية.إن دمج الصور الطبية المتعددة الوسائط، باعتباره مجالًا فرعيًا لمعالجة الصور الطبية، يواجه حاجزًا معرفيًا مهنيًا قويًا، ويمكن لخبرة Cai Qing الطويلة أن توفر التوجيه والمساعدة لهذا المشروع.
تجدر الإشارة إلى أنه بعد أن كان الأستاذ المشارك كاي تشينغ المؤلف الأول لورقة بحثية اختيرت لمؤتمر AAAI 2024 العام الماضي، أصبح هذا العام المؤلف الأول المشارك والمؤلف المراسل، وقد أُدرجت ثلاثة مشاريع بحثية في مؤتمر AAAI 2025. ويشمل ذلك دراسة أخرى حول معالجة الصور الطبية بعنوان "SGTC: التدريب المشترك الثلاثي الموجه دلاليًا لتجزئة الصور الطبية شبه الخاضعة للإشراف والمُعلّق عليها بشكل مُنفصل". في هذه الورقة، اقترح الباحثون إطار عمل جديد للتدريب المشترك الثلاثي الموجه دلاليًا، والذي يمكنه تحقيق تقسيم موثوق للصور الطبية من خلال التعليق على 3 شرائح متعامدة فقط من عدد صغير من عينات الحجم، مما يحل مشكلة عملية التعليق على الصور التي تستغرق وقتًا طويلاً وتتطلب جهدًا كبيرًا.
عنوان الورقة:
https://arxiv.org/abs/2412.15526
الفريق الآخر لهذا المشروع هو فريق البروفيسور لي هوافينج وتشانج يافي من كلية هندسة المعلومات والأتمتة في جامعة كونمينغ للعلوم والتكنولوجيا.ومن بينهم البروفيسور لي هوافينج الذي تم اختياره في أحدث قائمة لأفضل 21 عالمًا في العالم في عام 2021. وهو يشارك بشكل رئيسي في الأبحاث في مجال الرؤية الحاسوبية ومعالجة الصور وغيرها من المجالات. المؤلف الآخر لهذه المقالة هو الأستاذ المشارك تشانغ يافي، الذي تتمثل مجالات بحثه الرئيسية في معالجة الصور والتعرف على الأنماط، وقد ترأس العديد من المشاريع الإقليمية لمؤسسة العلوم الطبيعية الوطنية في الصين والمشاريع العامة لمؤسسة العلوم الطبيعية في يوننان في الصين.
نشر البروفيسور لي هوافينج، أحد القادة الأكاديميين المهمين في هذا المشروع، أبحاثًا حول معالجة الصور الطبية عدة مرات، مثل دراسة بعنوان "دمج الصور الطبية بناءً على التمثيل المتناثر" في وقت مبكر من عام 2017، ودراسة بعنوان "محاذاة ديناميكية للميزات وتحسينها لدمج الصور بالأشعة تحت الحمراء والمرئية: دمج قوي للترجمة" في عام 2023.
عنوان الورقة:
https://liip.kust.edu.cn/servletphoto?path=lw/00000311.pdf
عنوان الورقة:
https://www.sciencedirect.com/science/article/abs/pii/S1566253523000519
بالإضافة إلى ذلك، تعاون لي هوافينج مع البروفيسور تشانغ يافي عدة مرات لنشر أبحاث ذات صلة بشكل مشترك، مثل البحث المنشور بشكل مشترك في عام 2022 بعنوان "دمج الصور الطبية مع التعلم متعدد المقاييس وتعزيز الحافة". في هذه الدراسة، اقترح الفريق نموذج دمج الصور الطبية يعتمد على التعلم المميز متعدد المقاييس وتعزيز الحافة، والذي يمكن أن يخفف من مشكلة الحدود غير الواضحة بين الأعضاء المختلفة في دمج الصور الطبية. إن النتائج التي تم الحصول عليها بالطريقة المقترحة أفضل من الطريقة المقارنة سواء من حيث التأثيرات البصرية الذاتية أو التقييم الكمي الموضوعي.
عنوان الورقة:
https://researching.cn/ArticlePdf/m00002/2022/59/6/0617029.pdf
كما يقول المثل، التحالف القوي لا تشوبه شائبة. لا شك أن القدرات الأكاديمية المهنية للأستاذ لي هوافينج وفريق تشانغ يافي والأستاذ المشارك كاي تشينغ في مجال معالجة الصور الطبية هي المفتاح لنجاح هذا المشروع. ونحن نتطلع إلى استمرار التعاون بين الطرفين والاستمرار في نشر النتائج المتطورة في مجال الذكاء الاصطناعي للعلوم في المستقبل.
أصبح دمج الصور الطبية الهجينة متعددة الوسائط اتجاهًا
وبما أن دمج الصور الطبية المتعددة الوسائط يلعب دورًا مهمًا بشكل متزايد، فمن المؤكد أن تطوره التكنولوجي سيتجه نحو التكامل والذكاء.
كما ذكرنا في هذا الموضوع، في دراسة طرق الاندماج القائمة على التعلم العميق، لاحظ الباحثون أن الطريقة القائمة على CNN والطريقة القائمة على المحول لها مزايا تكميلية. لذلك اقترح بعض الباحثين DesTrans، وDFENet، وMRSC-Fusion. وتستخدم هذه الدراسات نهجًا هجينًا لجعل مزايا التقنيتين متكاملتين، وبالتالي تحسين كفاءة طريقة الاندماج.
بالإضافة إلى طرق الاندماج القائمة على التعلم العميق، تشمل طرق دمج الصور الطبية متعددة الوسائط أيضًا طرق الاندماج التقليدية، مثل التحويل متعدد المقاييس، والتمثيل المتناثر، والنماذج القائمة على الفضاء الفرعي، والنماذج القائمة على السمات البارزة، والنماذج الهجينة، وما إلى ذلك. وبالمثل، ظهرت أيضًا مناهج هجينة تعتمد على التعلم العميق + الطرق التقليدية.
ومن خلال اتجاهات البحث المذكورة أعلاه، يمكننا أن نرى أنفي المستقبل، ستظهر طريقة دمج الصور الطبية المتعددة الوسائط حتما اتجاها تطويريا يعتمد على التعلم العميق باعتباره الاتجاه السائد، مع خلط مجموعة متنوعة من المساعدات التقنية.
