مرشح لجائزة أفضل ورقة بحثية في CVPR 2024! أصدرت جامعة شنتشن وجامعة هونغ كونغ للفنون التطبيقية بشكل مشترك MemSAM: تطبيق نموذج "تجزئة كل شيء" على تقسيم الفيديو الطبي

وبحسب إحصاءات منظمة الصحة العالمية، فإن أمراض القلب والأوعية الدموية هي السبب الرئيسي للوفاة في جميع أنحاء العالم، حيث تودي بحياة حوالي 17.9 مليون شخص كل عام، وهو ما يمثل 321% من الوفيات العالمية. تخطيط صدى القلب هو تقنية تشخيصية بالموجات فوق الصوتية لأمراض القلب والأوعية الدموية ويستخدم على نطاق واسع في الممارسة السريرية بسبب قابليته للنقل وتكلفته المنخفضة وطبيعته في الوقت الحقيقي. لكن،يتطلب تخطيط صدى القلب تقييمًا يدويًا من قبل أطباء ذوي خبرة، وتعتمد جودة التقييم إلى حد كبير على المعرفة المهنية والخبرة السريرية للطبيب.ويؤدي هذا في كثير من الأحيان إلى اختلافات كبيرة بين المراقبين وداخل كل منهم في نتائج التقييم. ومن ثم، هناك حاجة ماسة إلى أساليب التقييم الآلية في الممارسة السريرية.
في السنوات الأخيرة، تم اقتراح العديد من أساليب التعلم العميق لتجزئة فيديو تخطيط صدى القلب. ومع ذلك، لا تزال هذه الأساليب غير قادرة على تحقيق نتائج مرضية بسبب الجودة المنخفضة والتعليقات التوضيحية المحدودة لمقاطع الفيديو بالموجات فوق الصوتية. في الآونة الأخيرة، تلقى نموذج مرئي واسع النطاق، نموذج تقسيم أي شيء (SAM)، اهتمامًا كبيرًا وحقق نجاحًا ملحوظًا في العديد من مهام تقسيم الصور الطبيعية.ومع ذلك، فإن كيفية تطبيق SAM على تقسيم الفيديو الطبي تظل مهمة صعبة.

بناءً على ذلك، نشر فريق مشترك من كلية الكمبيوتر والبرمجيات بجامعة شنتشن ومركز أبحاث الصحة الذكية بجامعة هونغ كونغ للفنون التطبيقية ورقة بحثية بعنوان "MemSAM: نموذج ترويض أي جزء لتجزئة فيديو تخطيط صدى القلب" في مؤتمر رؤية الكمبيوتر الرائد CVPR 2024. في الورقة،واقترح الباحثون نموذجًا جديدًا لتجزئة فيديو تخطيط صدى القلب يسمى MemSAM، حيث يتم تطبيق SAM على مقاطع الفيديو الطبية.

يستخدم النموذج الذكريات التي تحتوي على معلومات مكانية زمنية كإشارات لتجزئة الإطار الحالي، ويستخدم آلية تعزيز الذاكرة لتحسين جودة الذاكرة قبل تخزينها. تظهر التجارب على مجموعات البيانات العامة أن النموذج يحقق أداءً متطورًا مع عدد صغير من المطالبات النقطية ويحقق أداءً مماثلاً للطرق الخاضعة للإشراف الكامل مع التعليقات التوضيحية المحدودة، مما يقلل بشكل كبير من متطلبات المطالبة والتعليق التوضيحي لمهام تقسيم الفيديو.
أبرز الأبحاث:
- تستخدم هذه الدراسة الذاكرة التي تحتوي على معلومات مكانية زمنية كإشارة لتجزئة الإطار الحالي لتحسين اتساق التمثيل ودقة التجزئة.
- واقترح الباحثون أيضًا وحدة تعزيز الذاكرة لتعزيز الذكريات قبل تخزينها، وبالتالي التخفيف من التأثيرات السلبية للضوضاء المنقطة وآثار الحركة أثناء الإشارة إلى الذاكرة.
- يوضح النموذج الجديد أداءً متطورًا مقارنة بالنماذج الحالية، وعلى وجه الخصوص، فإنه يحقق أداءً مماثلاً للطرق الخاضعة للإشراف الكامل مع التعليقات التوضيحية المحدودة.

عنوان الورقة:
https://github.com/dengxl0520/MemSAM
مجموعات البيانات: مجموعتان من بيانات تخطيط صدى القلب متاحة للعامة
استخدم الباحثون مجموعتين من بيانات تخطيط صدى القلب المتاحة للعامة والمستخدمة على نطاق واسع كامو تم تقييم الطريقة على EchoNet-Dynamic:
- تحتوي مجموعة بيانات CAMUS على 500 حالة، بما في ذلك مقاطع فيديو عرض قمية ثنائية الأبعاد ذات غرفتين ومقاطع عرض قمية ذات أربع غرف، كما توفر أيضًا تعليقات توضيحية لجميع الإطارات.
- تحتوي مجموعة بيانات EchoNet-Dynamic على 10,030 مقطع فيديو لعرض غرفتين قميتين ثنائي الأبعاد. يوفر كل مقطع فيديو مساحة البطين الأيسر في شكل تكامل، مع شرح مرحلتي نهاية الانبساط (ED) ونهاية الانقباض (ES) فقط.
لتقييم فعالية الطريقة الجديدة بشكل شامل في تقسيم الفيديو شبه الخاضع للإشراف، قام الباحثون بتكييف مجموعة بيانات CAMUS إلى نسختين: CAMUS-Full وCAMUS-Semi. يستخدم CAMUS-Full تعليقات على جميع الإطارات أثناء التدريب، بينما يستخدم CAMUS-Semi تعليقات على الإطارات الانبساطية النهائية (ED) والانقباضية النهائية (ES) فقط. أثناء الاختبار، يتم تقييم كلتا مجموعتي البيانات باستخدام التعليقات التوضيحية الكاملة.
قام الباحثون بأخذ عينات موحدة من مقاطع الفيديو من مجموعة البيانات وقاموا بقصها إلى 10 إطارات لكل منها. تضمن عملية الاقتصاص أن يكون إطار ED هو الإطار الأول وإطار ES هو الإطار الأخير، ويتم ضبط الدقة على 256×256. تنقسم مجموعة بيانات CAMUS إلى مجموعة التدريب ومجموعة التحقق ومجموعة الاختبار بنسبة 7:1:2.
هندسة النموذج: مكونات SAM ومكونات الذاكرة تبني الإطار العام لـ MemSAM
يظهر الإطار العام لنموذج MemSAM في الشكل أدناه.يتكون من جزأين: مكون SAM ومكون الذاكرة.

يستخدم مكون SAM نفس بنية SAM الأصلية.يتكون من مشفر الصورة (Image Encoder) ومشفر المطالبة (Prompt Encoder) وفك تشفير القناع (Mask Decoder).
يستخدم مُشفِّر الصورة مُحوِّل الرؤية (ViT) باعتباره العمود الفقري لتشفير صورة الإدخال في متجه صورة (تضمين الصورة).
يستقبل مشفر المطالبة المطالبات الخارجية، مثل مطالبات النقاط، ويقوم بترميزها في تضمين ثلاثي الأبعاد. بعد ذلك، يقوم فك تشفير القناع بدمج الصورة ومتجه التلميح للتنبؤ بقناع التجزئة.
في هذه المكونات، يتم تعيين متجه الصورة إلى مساحة ميزة الذاكرة من خلال طبقة الإسقاط، ثم يقوم الباحثون بقراءة الذاكرة للحصول على مطالبات الذاكرة من ذكريات ميزة متعددة (مثل الذاكرة الحسية، والذاكرة العاملة، والذاكرة طويلة المدى) وتقديمها إلى فك تشفير القناع. وأخيرًا، بعد المرور عبر تعزيز الذاكرة وترميز الذاكرة، سيتم تحديث الذاكرة.
يوضح الشكل التالي مزيدًا من التفاصيل حول عملية قراءة الذاكرة وتعزيز الذاكرة وتحديث الذاكرة:

قراءة الذاكرة
تُظهر كتلة قراءة الذاكرة عملية إنشاء متجه ذاكرة من متجه صورة. يتم عرض متجه الصورة لتوليد استعلام، والذي يتم بعد ذلك الاستعلام عنه مقابل تقارب قيمة الذاكرة للحصول على قراءة الذاكرة. وأخيرًا، يتم دمج قراءة الذاكرة مع الذاكرة الحسية ومتجه الصورة للحصول على متجه الذاكرة.
تعزيز الذاكرة
بالمقارنة مع الصور الطبيعية، تحتوي صور الموجات فوق الصوتية على ضوضاء أكثر تعقيدًا، مما يعني أن متجهات الصورة التي يولدها مشفر الصورة تحمل ضوضاء حتمًا. إذا تم تحديث هذه الميزات الصاخبة في الذاكرة دون أي معالجة، فقد يؤدي ذلك إلى تراكم وانتشار الأخطاء.
من أجل التخفيف من تأثير الضوضاء على تحديث الذاكرة، هناك حاجة إلى وحدة تحسين الذاكرة لتعزيز القدرة على التمييز بين تمثيلات الميزات في الذاكرة. تقوم كتلة تعزيز الذاكرة أولاً بربط متجه الصورة وخريطة الاحتمالات المتوقعة، ثم تحدد المجال الاستقبالي لكل بكسل من خلال التفاف 3×3 لتوليد ميزة وزن الاهتمام المحلي.
تحديث الذاكرة
أخيرًا، يتم الحصول على ميزات الإخراج التي سيتم تحديثها إلى بنك الذاكرة من خلال حاصل الضرب النقطي لوظيفة Softmax ومتجه الصورة.
نتائج البحث: MemSAM يحقق أداءً متطورًا مع تعليقات توضيحية محدودة
للتحقق من صحة أداء MemSAM، قام الباحثون باختيار أنواع مختلفة من طرق المقارنة على نطاق واسع، بما في ذلك نماذج تقسيم الصور التقليدية والنماذج الطبية. النماذج الثلاثة التقليدية لتجزئة الصور هي UNet المستندة إلى CNN، وSwinUNet المستندة إلى Transformer، وH2Former الهجين CNN-Transformer. تشتمل نماذج SAM القابلة للتطبيق في المجال الطبي على MedSAM وMSA وSAMed وSonoSAM وSAMUS. ومن بينها SonoSAM وSAMUS التي تركز على صور الموجات فوق الصوتية.
أولاً، تظهر نتائج المقارنة الكمية في الجدول التالي:

ومن بين هذه الطرق الحديثة، تعمل H2Former وSAMUS بشكل جيد نسبيًا على كلتا مجموعتي البيانات، وذلك بفضل بنية CNN-Transformer وتحسين صور الموجات فوق الصوتية. ومع ذلك، في حالة التعليقات التوضيحية النادرة وبدون استغلال الخصائص الزمنية لمقاطع الفيديو، فإن النماذج المذكورة أعلاه تتخلف عن الطريقة المقترحة في هذه الدراسة.تؤكد التجارب أن MemSAM يحقق أفضل أداء مع التعليقات التوضيحية المحدودة.
لتقييم MemSAM بشكل أكبر، قام الباحثون أيضًا بمقارنة مجموعات البيانات CAMUS-Semi وCAMUS-Full في نفس الإعداد. وتظهر النتيجة في الشكل أدناه:

يمكن ملاحظة أن الطرق التقليدية مثل UNet وH2Former، بالإضافة إلى الطرق المتخصصة بالموجات فوق الصوتية مثل SonoSAM وSAMUS، يمكنها استعادة نتائج التجزئة اللائقة عند إعطائها التعليقات التوضيحية الكاملة. وعلى الرغم من أن نهجنا يحقق مكاسب أصغر من الإعدادات شبه الخاضعة للإشراف إلى الإعدادات الخاضعة للإشراف الكامل، فإنه لا يزال يتفوق على المنافسين الآخرين في كلتا الحالتين.
ومن الجدير بالذكر أن النموذج الأساسي الطبي يتطلب إشارات لكل إطار تحت الإشراف الكامل، بينما يتطلب MemSAM إشارة نقطة واحدة فقط.وتؤكد التجارب أن الطريقة المقترحة تحقق أداءً مماثلاً للتعليقات التوضيحية الكاملة ذات العلامات المتفرقة والتلميحات الخارجية الأقل بكثير.
والنتيجة التالية هي المقارنة النوعية. ويقدم الباحثون نتائج التصور لبعض الحالات الصعبة، كما هو موضح في الشكل أدناه:

تحتوي الصور في الصفوف 1-2 أعلاه على تشويش متقطع حول البطين الأيسر، مما يؤدي إلى تضليل بعض النماذج التقليدية والطبية في تحديده بشكل غير صحيح على أنه حافة البطين. تحتوي الصفوف من 3 إلى 4 على حالات ذات حدود غير واضحة للغاية، حيث تعطي جميع النماذج المقارنة تقريبًا نتائج تتجاوز الحدود البطينية الحقيقية، في حين تحدد الطريقة المقترحة الحدود بدقة.تظهر نتائج التصور هذه أن الطريقة المقترحة قوية في التعامل مع جودة الصورة الرديئة.
الذكاء الاصطناعي يقدم أفكارًا جديدة للوقاية من أمراض القلب والأوعية الدموية وعلاجها
أمراض القلب والأوعية الدموية هي فئة من أمراض القلب والأوعية الدموية، بما في ذلك مرض الشريان التاجي، وأمراض الأوعية الدموية الدماغية، وأمراض القلب الروماتيزمية وأمراض أخرى. في المجتمع الحديث، أدى النظام الغذائي غير الصحي، والافتقار إلى النشاط البدني، والتدخين وشرب الكحول إلى زيادة خطر الإصابة بأمراض القلب والأوعية الدموية.
في السنوات الأخيرة، ومع تطور التقنيات مثل الذكاء الاصطناعي والبيانات الضخمة، دخلت "الذكاء الاصطناعي + الرعاية الطبية" المسار السريع للتطور. لقد حقق الذكاء الاصطناعي تقدمًا كبيرًا في تشخيص وتوقع أمراض القلب والأوعية الدموية. على سبيل المثال، يمكن للذكاء الاصطناعي، إلى جانب بيانات تخطيط القلب وتصوير القلب والأوعية الدموية، تحقيق تشخيص دقيق. يمكن للذكاء الاصطناعي جنبًا إلى جنب مع بيانات التصوير القلبي الوعائي والبيانات السريرية الأخرى تحقيق الفحص المبكر والتنبؤ بمخاطر أمراض القلب والأوعية الدموية مثل مرض الشريان التاجي وأمراض القلب الخلقية وقصور القلب.
على سبيل المثال: التصنيف الدقيق لأصوات القلب هو المفتاح للتشخيص المبكر والتدخل في أمراض القلب والأوعية الدموية. لا تزال فعالية الاستماع إلى صوت القلب الاصطناعي تعتمد على المعرفة المهنية للطبيب، ولكن هذا الوضع يتغير بهدوء. في نوفمبر 2023، نشر فريق بان شيانغبين من مستشفى فوواي التابع للأكاديمية الصينية للعلوم الطبية (مستشفى فوواي) ورقة بحثية بعنوان "تصنيف صوت القلب بناءً على ميزات الطيف الثنائي ووضع محول الرؤية" عبر الإنترنت في مجلة الإسكندرية الهندسية.توصلت هذه الدراسة إلى تصنيف ثنائي لأصوات القلب بناءً على استخراج الميزات المستوحاة من الطيف الثنائي ونموذج المحول البصري.
وأظهر النموذج نتائج تصنيف ممتازة في جميع السكان (بما في ذلك المرضى الحوامل وغير الحوامل)، مع أداء تشخيصي متفوق على أداء الخبراء البشريين، مما يدل على إمكانات تطبيقية كبيرة.
في أكتوبر 2023، أظهرت بيانات بحثية جديدة نُشرت في مجلة Clinical Medicine أنه من خلال تحديد علامات مرض الشريان التاجي، مثل التكلس والانسدادات، بالإضافة إلى أدلة على النوبات القلبية السابقة، يمكن لـ ECG-AI الإشارة إلى بعض المخاطر قبل سنوات من معادلات حاسبة المخاطر الحالية.
ومؤخراً، نشرت شركة بريطانية تدعى Caristo Diagnostics نتائج دراسة سريرية بارزة في مجلة The Lancet.تقوم تقنية CaRi-Heart AI الخاصة بهم بقياس شدة التهاب الشريان التاجي والتنبؤ بأمراض القلب بدقة.

تأسست مؤسسة كاريستو في عام 2018 على يد أطباء القلب من جامعة أكسفورد. توصلت الشركة إلى اكتشاف بحثي كبير منذ أكثر من 50 عامًا - حيث تحدث النوبات القلبية بسبب التهاب الشرايين التاجية، لكن الأطباء لم يتمكنوا من ملاحظة وقياس الالتهاب من خلال فحوصات القلب الروتينية.الآن، يمكن استخدام تقنية CaRi-Heart لـ سي تي تي ايه استخرج هذه المعلومات من المسح الضوئي.ويمثل هذا إنجازًا علميًا من شأنه أن يغير بشكل جذري النهج التقليدي للتنبؤ بأمراض القلب والوقاية منها وإدارتها. وتشير التقارير إلى أن CaRi-Heart تم استخدامه سريريًا في المملكة المتحدة وأوروبا وأستراليا.
بالنظر إلى المستقبل، يتمتع الذكاء الاصطناعي بإمكانات تطوير هائلة في التشخيص والعلاج السريري، وخاصة في الوقاية من أمراض القلب والأوعية الدموية وعلاجها. وسوف يساعد الأطباء على تقديم التشخيص الدقيق والمشورة للمرضى بكفاءة وموثوقية أكبر.
مراجع:
1.https://m.chinacdc.cn/jkzt/mxfcrjbhsh/jcysj/201909/t20190906_205347.html
2.https://mp.weixin.qq.com/s/daqoXwnxeZxw7xC6iw1h3A
3.https://www.drvoice.cn/v2/article/12166
4.https://36kr.com/p/280080595174