HyperAI

تم اختياره لـ ECCV 2024! تقترح جامعة Zhejiang وMicrosoft Research Asia إطارًا موحدًا للتدريب المسبق للصور الطبية UniMedI لكسر حواجز عدم تجانس البيانات الطبية

特色图像

إن تمكين الذكاء الاصطناعي من امتلاك قدرات استجابة تشبه قدرات الإنسان في ظل ظروف معينة، بحيث يمكنه أن يحل محل البشر بكفاءة في أداء مهام محددة، هو السعي الدؤوب للباحثين في مجال الذكاء الاصطناعي. كما هو الحال في تقاطع التصوير الطبي والذكاء الاصطناعي، يمكن تدريب النماذج العميقة القائمة على التدريب المسبق للغة البصرية (VLP) مسبقًا على عدد كبير من الصور ومجموعات البيانات النصية المقابلة نظرًا لخصائصها الآلية، وتعلم كيفية استخراج الميزات ذات الصلة تلقائيًا من الصور الجديدة، مما يمكن أن يحل بكفاءة احتياجات التعليق اليدوي التي تستغرق وقتًا طويلاً وتتطلب عمالة مكثفة.

ومع ذلك، وعلى الرغم من أن VLP حقق قدرًا معينًا من النجاح في المجال الطبي، إلا أنه لا يزال يواجه العديد من التحديات في توسيع نطاق بيانات تطبيقه بشكل أكبر.

أولاً، يعتمد تدريب النموذج الحالي في الغالب على بيانات أحادية النمط (صور ثنائية الأبعاد بشكل أساسي، مثل الأشعة السينية)، وهو ما يتعارض مع السيناريوهات الطبية الحقيقية التي تنطوي على صور متعددة الوسائط (بما في ذلك الصور ثنائية الأبعاد وثلاثية الأبعاد، مثل صور الأشعة المقطعية والتصوير بالرنين المغناطيسي، وما إلى ذلك)؛ ثانياً، إن التباين المتأصل في الصور الطبية للوسائط المختلفة يعيق أيضاً التعاون والتكامل الفعال فيما بينها. بالإضافة إلى ذلك، فإن بيانات الوسائط المختلفة للصور الطبية تعاني أيضًا من اختلافات في الأبعاد ونقص في البيانات المقترنة. لذلك،لقد أصبحت كيفية بناء نموذج موحد وربط هذه البيانات النموذجية المختلفة بشكل فعال في مساحة مشتركة لتحقيق التعلم المشترك موضوعًا صعبًا للغاية.

من أجل حل المشاكل المذكورة أعلاه،واقترح فريق هو هاوجي من جامعة تشجيانغ وفريق تشيو ليلي من مايكروسوفت ريسيرش آسيا إطار عمل موحد جديد للتدريب المسبق على الصور الطبية، UniMedI.ويستخدم التقارير التشخيصية كمساحة دلالية مشتركة لإنشاء تمثيل موحد للصور الطبية لمختلف الوسائل. بالإضافة إلى ذلك، فإنه يقدم أيضًا تقنية إنشاء "الأزواج الزائفة". تحت إشراف النص،يتمكن UniMedI من تحديد شرائح ثنائية الأبعاد مرتبطة بالنص من صور ثلاثية الأبعاد معقدة، والتي تعمل كأزواج وهمية تربط بين البيانات ثنائية الأبعاد وثلاثية الأبعاد، مما يعزز الاتساق بين مختلف وسائل التصوير الطبي ودمج الصور الطبية متعددة الوسائط بشكل فعال.

نتائج البحث ذات الصلة تحمل عنوان "التدريب المسبق للصور الطبية الموحدة في الفضاء الدلالي المشترك الموجه باللغة" وتم تضمينها في ECCV 2024، المؤتمر الأبرز في مجال الرؤية الحاسوبية والتعلم الآلي.

لمزيد من المعلومات حول القمة، يرجى الضغط على الرابط أدناه:

https://go.hyper.ai/0wtVi

أبرز الأبحاث:
* في التجارب، أظهر UniMedI أداءً ممتازًا على الصور ثنائية وثلاثية الأبعاد على مجموعات بيانات متعددة مختلفة، وتفوق في مجموعة واسعة من المهام الطبية مثل تصنيف الصور وتقسيمها واسترجاعها 

* يمكن لـ UniMedI جمع الصور ثنائية وثلاثية الأبعاد بطريقة موحدة، مما يحل مشكلة ندرة البيانات في المجال الطبي


عنوان الورقة:
https://eccv.ecva.net/virtual/2024/poster/1165
اتبع الحساب الرسمي ورد على "إطار عمل التدريب المسبق للصور الطبية" للحصول على ملف PDF كامل

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

البيانات الطبية الحقيقية، إطار التحقق الفعال

البيانات المستخدمة للتدريب المسبق لإطار عمل UniMedI تأتي من إصدار JPG لمجموعة بيانات الأشعة السينية ثنائية الأبعاد MIMIC-CXR 2.0.0 ومجموعة بيانات التصوير المقطعي المحوسب ثلاثي الأبعاد BIMCV.

ومن بين هذه المهام، قام الباحثون بمعالجة مسبقة لمجموعة البيانات ثنائية الأبعاد من خلال إزالة جميع الصور الجانبية لمواءمتها مع المهام اللاحقة التي تستخدم الصور الأمامية فقط. وفي الوقت نفسه، للحفاظ على اكتمال مجموعة البيانات، لم يتم استخدام تقارير قصيرة لمجموعات البيانات ثنائية وثلاثية الأبعاد تحتوي على أقل من ثلاث جمل في التجارب.

أما من حيث الصور فإن حجم الصور ثنائية الأبعاد هو 224×224، وحجم الصور ثلاثية الأبعاد هو 128×128×32.

قام فريق البحث بتدريب إطار عمل UniMedI مسبقًا 50 مرة على 8 وحدات معالجة رسومية Tesla V100 بحجم دفعة يبلغ 144.

وفي التقييم التجريبي، قام الفريق أولاً بتصنيف الصور الطبية على مجموعات البيانات ثنائية وثلاثية الأبعاد.هناك ثلاث مجموعات بيانات تمثيلية ثنائية الأبعاد: CheXpert، التي تحتوي على 191,229 صورة شعاعية للصدر الأمامي؛ النسخة الثانية من اختبار الالتهاب الرئوي RSNA، والتي تحتوي على ما يقرب من 29700 صورة شعاعية للصدر الأمامي؛ و16490 صورة إيجابية لفيروس كوفيد-19 من أكثر من 2800 مريض.

ثم قام الفريق بتصنيف مجموعتين تمثيليتين من البيانات ثلاثية الأبعاد:وهما CC-CCII وLUNA 16 على التوالي. ومن بينها، استخدم CC-CCII إصدار Clean-CC-CCII، الذي يحتوي على 340,190 شريحة من 3,993 مسحًا لـ 2,698 مريضًا؛ يحتوي LUNA 16، الذي تم بناؤه على LIDC-IDRI، على 888 فحصًا مقطعيًا محوسبًا مع التعليقات التوضيحية. في هذه التجربة، تم حذف عمليات مسح التصوير المقطعي المحوسب التي يزيد سمك الشريحة فيها عن 3 مم من قاعدة بيانات LIDC-IDRI.

آلية التعاون الطبقي تكسر حواجز البيانات

اقترح UniMedI في هذه الدراسة إطارًا للتدريب المسبق على الرؤية واللغة. يتم ترميز الصور الطبية وتقاريرها النصية بواسطة مشفرين، مشفر الرؤية ومشفر النص على التوالي، ثم يتم تعلمهما بشكل مشترك من خلال التعلم التبايني VL (الرؤية واللغة). يتميز UniMedI بقدرته على الحصول على صور ثنائية وثلاثية الأبعاد بكفاءة بطريقة موحدة، مما يحل مشكلة ندرة البيانات في المجال الطبي. يظهر الإطار العام لـ UniMedI على الجانب الأيسر من الشكل أدناه:

الإطار العام لـ UniMedI: الجانب الأيسر هو العملية الشاملة، والجانب الأيمن هو التصميم الرئيسي

في التجربة، تم استخدام مشفر مرئي وهو ViT-B/16، والذي يستخرج بشكل أساسي التمثيلات في مساحة الميزة المشتركة للبيانات المرئية ثنائية الأبعاد وثلاثية الأبعاد. يستخدم مُشفِّر النص BioClinicalBERT لتشفير ميزات النص. يعد مشفر المرئي ومشفر النص عالميين في البيانات ثنائية الأبعاد وثلاثية الأبعاد.

للتغلب على تحدي عدم وجود بيانات صور مقترنة ثنائية وثلاثية الأبعاد.قدم فريق البحث طريقة لإنشاء "الاقتران الزائف" في UniMedI، والتي تم تصميمها على أساس استراتيجية جديدة لاختيار شريحة الانتباه الموجهة باللغة.

على سبيل المثال، عندما يكون الإدخال عبارة عن صورة ثلاثية الأبعاد، يتم استخراج جزء من الشرائح ثنائية الأبعاد الأكثر صلة بالتقرير منها، ثم يتم اعتبار الشرائح المحددة كصور ثنائية الأبعاد، وبالتالي تشكيل علاقة اقتران زائفة بين الصور ثنائية الأبعاد وثلاثية الأبعاد. بعد ذلك، عن طريق تغذية الشرائح ثنائية الأبعاد المحددة في الشبكة مع الصورة ثلاثية الأبعاد الأصلية، يمكن تعلم العلاقة بينها وبين التقرير بشكل مشترك، وأخيرًا يتم تشكيل مساحة ميزة موحدة. عندما يكون الإدخال عبارة عن صورة ثنائية الأبعاد، يتم حذف عملية اختيار الشريحة.

بعد ذلك، يقوم مشفر مرئي بتعيين جميع الصور متعددة الوسائط (بما في ذلك الصور الأصلية ثنائية الأبعاد وثلاثية الأبعاد والشرائح ثنائية الأبعاد المحددة) في مساحة التمثيل. يحتوي المشفر المرئي على علامات T للصور ثنائية الأبعاد وثلاثية الأبعاد على التوالي.2د و ت3د، وعمود فقري مشترك هـ من أجل تكامل أفضلالخامس . يتم تعلم النموذج المكون من المشفر المرئي ومشفر النص Eₗ من البداية إلى النهاية في VLP عبر خسارة التعلم التبايني Lᵥₗ. في هذه العملية، يمكن ترميز الصور ثنائية الأبعاد وثلاثية الأبعاد في مساحة دلالية مشتركة يتم الإشراف عليها من خلال المعلومات اللغوية الموجودة في التقارير.

ومن أجل الاستفادة الكاملة من البيانات المتعددة الوسائط للصور الطبية نفسها وبعض المعلومات العامة المشتركة، قدمت هذه الدراسة أيضًا تصميمًا لمهمة مساعدة، وهي الإخفاء والاستعادة، واستخدمت طريقة التقطير الذاتي لإكمال المهمة.يتيح هذا لرموز الصور ثنائية وثلاثية الأبعاد التواصل مع بعضها البعض ويعزز التفاعلات عبر الأبعاد وتكامل الصور متعددة الوسائط.

ومن الجدير بالذكر أن أحد أهم ما يميز UniMedI هو التأثير التآزري لاستراتيجية اختيار شريحة الانتباه والتعلم التبايني VL.

* من ناحية،يتيح التعلم التبايني VL الإشراف على اللغة، والذي يتم تطبيقه مباشرة على رمز CLS المرئي. تحتوي هذه الرمز على معلومات مهمة في التقرير، وبالتالي فإن وزن انتباه رمز CLS المرئي، كأساس لاختيار الشريحة ثنائية الأبعاد، يحمل معلومات الإشراف من التقرير وينشئ مساحة ميزة مشتركة مع الميزات ثلاثية الأبعاد.

* على الجانب الآخر،يؤدي اختيار الشريحة بعناية إلى توفير مساحة ميزات أكثر تكاملاً ثنائية وثلاثية الأبعاد، حتى بدون بيانات مقترنة. يمكن لهذه المساحة المشتركة تضخيم المعلومات التفصيلية بين الصور والتقارير الطبية، وبهذه الطريقة، تعزز التوافق بين الصور والتقارير. يجمع هذان التصميمان بين تمثيلات الصور متعددة الوسائط ويجعلانها قريبة من مساحة تمثيل التقرير في نفس الوقت، مما يحقق تأثير واحد زائد واحد أكبر من اثنين في بناء مساحة دلالية مشتركة.

يُظهر التقييم التجريبي متعدد الزوايا أن أداءه يتفوق على UniMiss

من أجل إجراء تقييم شامل وفعال لـ UniMedI، قامت هذه الدراسة بإعداد ملاحظات متعددة الزوايا والتحقق من أدائها وفعاليتها من خلال إجراء تحليل مقارن مع طرق VLP الطبية المختلفة.

أولاً، قام فريق البحث بمقارنة UniMedI بالطرق بما في ذلك ConVIRT و GLoRIA و MGCA و LOVT و PRIOR وما إلى ذلك، والتي تم تصميمها خصيصًا للأشعة السينية والتقارير الطبية المقابلة لها؛ بعد ذلك، قام فريق البحث بمقارنة UniMedI مع العديد من طرق التعلم المفصلية ثنائية وثلاثية الأبعاد، بما في ذلك UniMiss وJoint.

تظهر نتائج تجربة التصنيف الخطي أنفي نتائج التجارب التي أجريت على تصنيف الصور الطبية ثنائية الأبعاد (كما هو موضح أدناه)، وبالمقارنة مع طريقة MGCA (ViT-b/16) الحديثة باستخدام ViT كمشفر بصري، كان أداء UniMedI أفضل في ثلاثة تصنيفات للصور الطبية ثنائية الأبعاد تحت بيانات تدريب مختلفة (1%، 10%، 100%).

* تجربة التصنيف الخطي: تستخدم لتقييم قدرة UniMedI على التمثيل

بالمقارنة، تم تحسين AUROC لـ UniMedI على مجموعة بيانات CheXpert بمقدار +0.6% و+0.6% و+0.8% على التوالي؛ تم تحسين AUROC على مجموعة بيانات RSNA بمقدار +0.9% و+0.5% و+0.7% على التوالي؛ وتم تحسين AUROC على مجموعة بيانات COVID بمقدار +5.5% و +7.6% و +2.3% على التوالي. وتظهر النتائج التجريبية فعالية الخوارزمية المقترحة.

نتائج التصنيف الخطي ثنائي الأبعاد على مجموعات بيانات CheXpert وRSNA وCOVID مع بيانات التدريب 1% و10% و100%

في نتائج التجارب التصنيفية للصور الطبية ثلاثية الأبعاد (كما هو موضح أدناه)، وبالمقارنة مع UniMiss الأكثر تقدمًا، نجح UniMedI في تحسين مكاسب ACC بمقدار +22.6% و+2.0% و+0.8% على مجموعات بيانات CC-CCII على التوالي. وتؤكد هذه البيانات كفاءة وفعالية بيانات UniMedI.

نتائج التصنيف الخطي ثلاثي الأبعاد على CC-CCII مع بيانات التدريب 1% و10% و100%

وفي الوقت نفسه، عندما يتم ضبط المشفر البصري الكامل باستخدام بيانات التدريب الكاملة، يتفوق UniMedI على الطرق الأخرى في مجموعات بيانات الصور الطبية ثلاثية الأبعاد المتعددة بما في ذلك CC-CCII وLUNA.

كما هو موضح في الشكل أدناه، فإن قيمة ACC لـ UniMedI على مجموعة بيانات CC-CCII هي 93.8%، وقيمة ACC على مجموعة بيانات LUNA2016-v2 هي 95.9%. يُظهر هذا قدرته الكبيرة على التعميم في مهام تصنيف الصور الطبية ثنائية الأبعاد وثلاثية الأبعاد، مما يشير إلى أن الإطار لديه القدرة على استخراج السمات العالمية لصور الأشعة المقطعية ثلاثية الأبعاد.

نتائج الضبط الدقيق ثلاثي الأبعاد على مجموعات البيانات CC-CCII وRICORD مع بيانات التدريب الكاملة

تظهر نتائج تجارب التجزئة الدلالية الطبية أنفي نتائج التجزئة الدلالية الطبية ثنائية الأبعاد، كان UniMedI أفضل بشكل ملحوظ من خوارزمية MGCA الحديثة. عند استخدام 1% من بيانات التدريب، حقق UniMedI قيمة Dice قدرها 67.8%. في نتائج التجزئة الدلالية الطبية ثلاثية الأبعاد، يحسن UniMedI الدقة بمقدار 0.6% و0.4% على التوالي مقارنةً بـ UniMiss في مجموعة بيانات BCV عندما يكون توفر العلامة المحدود 40% و100%، كما هو موضح في الشكل أدناه.

* تجربة التجزئة الدلالية الطبية: تستخدم لتقييم أداء التجزئة، باستخدام صور الأشعة السينية الأمامية للصدر من RSNA للالتهاب الرئوي، ومجموعات بيانات BCV (بما في ذلك 50 فحصًا بالتصوير المقطعي المحوسب).

وتؤكد هذه النتائج تفوق UniMedI القوي في استخراج الميزات ذات المعنى والاستخدام الفعال للبيانات المحدودة الموضحة، مما يدل على كفاءتها العالية في الاستفادة من التمثيلات المحلية لمهام التجزئة الدلالية.

تساعد التكنولوجيا على تعميق العلاقة بين VLP والتصوير الطبي

أصبحت نماذج التدريب المسبق للغة البصرية بمثابة جسر مهم يربط بين الرؤية الحاسوبية ومعالجة اللغة الطبيعية، وخاصة في مجال التصوير الطبي. ومن خلال التدريب المسبق على البيانات البصرية واللغوية واسعة النطاق، يمكنهم بسهولة التقاط العلاقة المعقدة بين الصور والنصوص الطبية المعقدة، وبالتالي مساعدة الأطباء في تشخيص الصور، ومساعدة الشركات في البحث والتطوير في مجال الأدوية، أو تحقيق إدارة الصور الطبية الذكية.

إن حقيقة اختيار هذا البحث لمؤتمر دولي رفيع المستوى يثبت أيضًا من منظور آخر الإمكانات الهائلة لـ VLP في تقاطع الذكاء الاصطناعي والتصوير الطبي.في الواقع، بالإضافة إلى التعاون القوي بين فريقي جامعة تشجيانغ ومايكروسوفت للأبحاث آسيا، حققت العديد من المختبرات بالفعل اختراقات في هذا المجال.

على سبيل المثال، تم نشر UniMiss، إحدى الطرق المتقدمة المذكورة في الدراسة أعلاه، في مجلة ECCV لعام 2022 من قبل فريق من جامعة أديلايد وكلية علوم الكمبيوتر بجامعة نورث وسترن بوليتكنيك، تحت عنوان "UniMiss: التعلم الذاتي الطبي الشامل عبر كسر حاجز الأبعاد".

عنوان الورقة:
https://dl.acm.org/doi/abs/10.1007/978-3-031-19803-8_33

في هذه الدراسة، يدعو المؤلفون إلى استخدام عدد كبير من الصور ثنائية الأبعاد لتعويض نقص البيانات ثلاثية الأبعاد، بهدف إنشاء إطار عمل تعليمي تعبيري طبي عام يتم الإشراف عليه ذاتيًا يسمى UniMiss.تظهر النتائج التجريبية أن UniMiss يتمتع بمزايا كبيرة مقارنة بالتدريب المسبق لـ ImageNet ومنافسيه المتقدمين الآخرين في مجال SSL (التعلم الذاتي الإشرافي). في مهام تحليل الصور الطبية ثنائية وثلاثية الأبعاد، فإن التجزئة والتصنيف لها نتائج مرضية.

ولم يقتصر الأمر على ذلك، ففي يوليو/تموز من هذا العام، أجرى الفريق جولة جديدة من الأبحاث حول UniMiss واقترح UniMiss+. حاليًا، تم تضمين النتائج ذات الصلة في المجلة الدولية المعروفة IEEE Transactions on Pattern Analysis and Machine Intelligence تحت عنوان "UniMiSS+: Universal Medical Self-Supervised Learning From Cross-Dimensional Unpaired Data".

عنوان الورقة:
https://ieeexplore.ieee.org/document/10617802

وفي أحدث الأبحاث، قدم الفريق تقنية فيلم الأشعة السينية المعاد بناؤها رقميًا في UniMiss+ لمحاكاة صور الأشعة السينية لعمليات المسح المقطعي المحوسب من أجل الوصول إلى بيانات صور الأشعة المقطعية والأشعة السينية المقترنة. وهذا يعتبر تحسنًا كبيرًا مقارنة بالجيل السابق من UniMiss.

باختصار، لا يزال البحث العلمي ذو الصلة بدمج الذكاء الاصطناعي والصور الطبية في كامل نشاطه. وبمرور الوقت، سيتم تحويل هذه الإنجازات إلى تطبيقات وتنفيذها في سيناريوهات طبية حقيقية، لتصبح أدوات جديدة تعود بالنفع على الطاقم الطبي والمرضى والمؤسسات.