MaxViT-UNet: الانتباه متعدد المحاور لتقسيم الصور الطبية

منذ ظهورها، حققت شبكات العصب الاصطناعية المتلافهة (Convolutional Neural Networks - CNNs) تقدمًا كبيرًا في تحليل الصور الطبية. ومع ذلك، قد يشكل الطابع المحلي لعملية التلافيف (التشبيك) تحديًا في التقاط التفاعلات العالمية والبعيدة المدى في شبكات CNNs. مؤخرًا، اكتسبت نماذج التحويل (Transformers) شعبية في مجتمع رؤية الحاسوب وفي تقسيم الصور الطبية أيضًا بفضل قدرتها على معالجة الخصائص العالمية بكفاءة. قد تكون مشكلات القابلية للتوسع في آلية الانتباه الذاتي ونقص الانحياز الاستقرائي المماثل لـ CNNs قد حدّت من استخدامها. لذلك، أصبحت النماذج الهجينة لرؤية التحويل (CNN-Transformer) ذات أهمية متزايدة، حيث تستفيد من مزايا كل من عملية التلافيف والانتباه الذاتي.في هذا العمل، نقدم MaxViT-UNet، وهي شبكة هجينة جديدة من نوع UNet تعتمد على معمارية المُشفر-المُفكك (Encoder-Decoder) لمهمة تقسيم الصور الطبية. تم تصميم المُفكك الهجين المقترح ليستفيد من قوة كل من عمليتي التلافيف والانتباه الذاتي في كل مرحلة فك تشفير مع حمل ذاكرة وحسابي طفيف. يعزز إدخال الانتباه الذاتي متعدد المحاور داخل كل مرحلة فك تشفير بشكل كبير القدرة على تمييز المناطق بين الكائن والخلفية، مما يساعد في تحسين كفاءة التقسيم.في المُفكك الهجين، تم اقتراح كتلة جديدة أيضًا. يبدأ عملية الدمج بدمج خصائص الفكودر الأدنى المستوى التي تم توسيع نطاقها، والمُحصل عليها عبر التلافيف العكسية (Transpose Convolution)، مع خصائص الروابط القافزة (Skip-Connection) المستخرجة من المشفر الهجين. بعد ذلك تخضع الخصائص المدمجة للتكرار والتوضيح باستخدام آلية انتباه متعدد المحاور. يتم تكرار الكتلة المقترحة للمُفكك عدة مرات لتقسيم المناطق النووية بشكل تدريجي.نتائج التجارب على مجموعات البيانات MoNuSeg18 و MoNuSAC20 أثبتت فعالية التقنية المقترحة.