LM-Net: شبكة خفيفة الوزن ومتعددة المقياس لتقسيم الصور الطبية

الطرق الحالية لتقسيم الصور الطبية لديها حدود في استكشاف المعلومات متعددة القياسات بعمق وفي دمج النصوص التفصيلية المحلية بمعلومات السياق الدلالي العالمية بشكل فعال. هذا يؤدي إلى تقسيم زائد، وتقسيم ناقص، وحدود تقسيم غير واضحة. للتعامل مع هذه التحديات، نستكشف تمثيلات الميزات متعددة القياسات من وجهات نظر مختلفة، ونقترح هندسة جديدة خفيفة الوزن ومتعددة القياسات (LM-Net) تدمج مزايا الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs) لتحسين دقة التقسيم. يستخدم LM-Net وحدة متعددة الفروع خفيفة الوزن لالتقاط الميزات متعددة القياسات على نفس المستوى. بالإضافة إلى ذلك، نقدم وحدتين لالتقاط النصوص التفصيلية المحلية ومعلومات السياق الدلالي العالمي مع الميزات متعددة القياسات على مستويات مختلفة: محول الميزة المحلية (LFT) ومحول الميزة العالمية (GFT). يدمج LFT انتباه الذات المحلي للنوافذ لالتقاط النصوص التفصيلية المحلية، بينما يستفيد GFT من انتباه الذات العالمي لالتقاط سياق المعلومات الدلالية العالمية. من خلال دمج هذه الوحدات، يحقق نموذجنا تكاملًا بين التمثيلات المحلية والعالمية، مما يخفف مشكلة حدود التقسيم غير الواضحة في تقسيم الصور الطبية. لتقييم جدوى LM-Net، أجريت تجارب موسعة على ثلاثة مجموعات بيانات عامة ذات أنماط مختلفة. حققت النموذج المقترح لدينا أفضل النتائج حتى الآن، متفوقًا على الأساليب السابقة، مع الحاجة فقط إلى 4.66 مليار عملية عائمة (FLOPs) و5.4 مليون معلمة. تظهر هذه النتائج الرائدة على ثلاث مجموعات بيانات ذات أنماط مختلفة فعالية وهندسة LM-Net المقترحة لدينا وقدرتها على التكيف مع مختلف مهام تقسيم الصور الطبية.