QTSeg: إطار انتباه مزدوج مختلط مستند إلى رموز الاستعلام مع توزيع متعدد المستويات للميزات لتقسيم الصور الطبية

يلعب تقسيم الصور الطبية دورًا حاسمًا في مساعدة المهنيين الصحيين على التشخيص الدقيق وتمكين عمليات التشخيص الآلية. غالبًا ما تواجه الشبكات العصبية التلافيفية التقليدية (CNNs) صعوبة في التقاط الارتباطات طويلة المدى، بينما تأتي الهندسات المستندة إلى المتحولات (Transformers) بزيادة التعقيد الحاسوبي رغم فعاليتها. ركزت الجهود الحديثة على دمج الشبكات العصبية التلافيفية والمتحولات لموازنة الأداء والكفاءة، ولكن الأساليب الموجودة لا تزال تواجه تحديات في تحقيق دقة عالية في التقسيم مع الحفاظ على تكاليف حاسوبية منخفضة. بالإضافة إلى ذلك، فإن العديد من الطرق تستغل قدرة مُشفر CNN على التقاط المعلومات الفضائية المحلية بشكل غير كافٍ، وتركز بشكل أساسي على تخفيف مشكلات الارتباطات طويلة المدى. لمعالجة هذه القيود، نقترح QTSeg، وهي هندسة جديدة لتقسيم الصور الطبية تعمل على دمج المعلومات المحلية والعالمية بكفاءة. يتميز QTSeg بمنشئ انتباه مزدوج مختلط مصمم لتعزيز أداء التقسيم من خلال: (1) آلية انتباه عابر (Cross-Attention) لتحسين تنظيم الخصائص، (2) وحدة انتباه فضائي (Spatial Attention Module) للتقاط الارتباطات طويلة المدى، و(3) كتلة انتباه القناة (Channel Attention Block) لتعلم العلاقات بين القنوات. بالإضافة إلى ذلك، نقدم وحدة توزيع خصائص متعددة المستويات، التي تعادل بشكل متكيف التوازن بين انتشار الخصائص في المُشفر والمُفكِّر، مما يعزز الأداء بشكل أكبر. أظهرت التجارب الواسعة على خمسة مجموعات بيانات متاحة للجمهور تغطي مهام تقسيم متنوعة مثل تقسيم البؤر المرضية والبوليب والسرطان الثديي والخلايا والأوعية الشبكية أن QTSeg يتفوق على أفضل الأساليب الحالية في عدة مقاييس تقييم مع الحفاظ على تكاليف حاسوبية أقل. يمكن العثور على تنفيذنا في: https://github.com/tpnam0901/QTSeg (v1.0.0)