Swin-Unet: Unet-مثلية مُحَوِّل نقي للتحليل التصنيفي للصور الطبية

في السنوات القليلة الماضية، حققت الشبكات العصبية التلافيفية (CNNs) إنجازات بارزة في تحليل الصور الطبية. وبخاصة، تم تطبيق الشبكات العصبية العميقة المستندة إلى المعمارية ذات الشكل U والاتصالات المُسَمَّاة (skip-connections) على نطاق واسع في مجموعة متنوعة من مهام صور الطب. ومع ذلك، وعلى الرغم من الأداء المتميز الذي تحققه CNN، إلا أنها لا تتمكن من تعلم التفاعل بين المعلومات الدلالية العالمية والبعيدة بفعالية نظرًا لطبيعة المحاذاة المحلية لعملية التلافيف. في هذا البحث، نقترح مُعمَّر Swin-Unet، وهو نموذج نقدي مبني بالكامل على المُحَوِّل (Transformer) على غرار معمارية Unet، مصمم خصيصًا لتحليل الصور الطبية. حيث يتم إدخال شرائح الصورة المُرَمَّزة إلى بنية معمارية مُشفَّرة-مُفكَّكة (Encoder-Decoder) قائمة على المُحَوِّل ذات شكل U، مع اتصالات مُسَمَّاة، بهدف التعلم المشترك للسمات الدلالية المحلية والعالمية. بشكل خاص، نستخدم مُحَوِّل Swin الهرمي مع نوافذ مُزَاحَة كمُشَفِّر (Encoder) لاستخراج السمات السياقية. كما تم تصميم مُفكِّك (Decoder) متماثل مبني على مُحَوِّل Swin يحتوي على طبقة لتوسيع الشرائح، بهدف تنفيذ عملية التكبير (up-sampling) واستعادة الدقة المكانية للخرائط المميزة. وعند تطبيق التناقص المباشر والتكبير المباشر للإدخالات والنتائج بنسبة 4x، أظهرت التجارب على مهام تجزئة الأعضاء المتعددة وتحليل القلب أن الشبكة المُعمَّرة المبنية بالكامل على المُحَوِّل ذات المعمارية U المُشفَّرة-المُفكَّكة تتفوّق على الطرق التي تعتمد على التلافيف الكاملة أو على المزيج بين المُحَوِّل والتفريع. سيتم إتاحة الكودات والنماذج المدربة بشكل عام عبر الرابط التالي: https://github.com/HuCaoFighting/Swin-Unet.