Box2Mask: تقسيم الحالات تحت إشراف الصناديق من خلال تطور مستوى المجموعات

على عكس الطرق المراقبة بالكامل التي تستخدم ملصقات الأقنعة على مستوى البكسل، فإن تقسيم الحالات تحت إشراف الصناديق يستفيد من التسميات البسيطة للصناديق، وهو ما جذب اهتمامًا بحثيًا متزايدًا مؤخرًا. يقدم هذا البحث نهجًا جديدًا لتقسيم الحالات في مرحلة واحدة يُطلق عليه اسم Box2Mask، والذي يدمج نموذج التطور التقليدي لمستوى المجموعة في تعلم الشبكات العصبية العميقة لتحقيق تنبؤ دقيق بالأقنعة باستخدام الإشراف فقط بالصناديق الحدودية. تحديدًا، يتم استخدام كل من الصورة الإدخالية وخصائصها العميقة لإحداث تطور ضمني لمنحنيات مستوى المجموعة، ويتم استخدام وحدة التجانس المحلية المستندة إلى نواة التجانس البكسلية لاكتشاف السياق المحلي والعلاقات المكانية. تم تطوير نوعين من الإطارات ذات المرحلة الواحدة، وهما الإطارات المستندة إلى CNN والإطارات المستندة إلى الترانسفورمر، لتعزيز تطور مستوى المجموعة في تقسيم الحالات تحت إشراف الصناديق، وكل إطار يتكون من ثلاثة مكونات أساسية: محول فاصل للحالات، تعيين مطابقة على مستوى الصندوق، وتطور مستوى المجموعة. عن طريق تقليل دالة الطاقة لمستوى المجموعة، يمكن تحسين خريطة القناع لكل حالة بشكل متكرر داخل تسميتها بالصندوق الحدودي. أظهرت النتائج التجريبية على خمسة أدوات اختبار صعبة، والتي تغطي مشاهد عامة وتشخيص بعيد وجغرافي طبي وصور نصوص المشهد، الأداء الاستثنائي لنظام Box2Mask المقترح في تقسيم الحالات تحت إشراف الصناديق. وبشكل خاص، مع وجود هيكل أساسي كبير مستند إلى Swin-Transformer (Swin-Transformer)، يحقق نظام Box2Mask نسبة AP للقناع 42.4% على COCO (COCO)، وهي تعادل الأساليب الحديثة التي تعتمد على الإشراف الكامل بالأقنعة. الرمز متاح على الرابط التالي:https://github.com/LiWentomng/boxlevelset.