CFR-ICL: التحسين المتسلسل الأمامي مع خسارة النقر التكرارية للقسمة التفاعلية للصورة

يهدف التجزئة التفاعلية القائمة على النقر إلى استخراج الكائن المطلوب من صورة بمرافقة نقرات المستخدم. وقد حققت الدراسات الحديثة أداءً متميزًا بشكل عام من خلال استخدام ملاحظات من الإخراج. ومع ذلك، في معظم النماذج المتطورة حاليًا، 1) يشتمل مرحلة الاستنتاج على قواعد يدوية غير مرنة ويتطلب نموذجًا منفصلًا للتحسين، و2) لا يمكن تحقيق توازن بين عدد نقرات المستخدم والأداء النموذجي. ولحل هذه التحديات، نقترح إطارًا جديدًا للتجزئة التفاعلية للصور القائمة على النقرات والمساعدات القائمة على الخريطة (mask-guided)، يتضمن ثلاثة مكونات مبتكرة: التحسين المتسلسل المتقدم (CFR)، ووظيفة فقدان النقر التكراري (ICL)، وتمديد الصورة SUEM. يوفر CFR إطارًا موحدًا للاستنتاج، لإنتاج نتائج التجزئة بطريقة خشنة إلى دقيقة. وتمكّن ICL المُقترحة من تدريب النموذج على تحسين التجزئة وتقليل التفاعلات مع المستخدم في نفس الوقت. كما يُعد تمديد الصورة SUEM المُقترح طريقة شاملة لإنشاء مجموعات تدريب كبيرة ومتنوعة للتجزئة التفاعلية للصور. أظهرت التجارب الواسعة أداءً متميزًا في المستوى الرائد على خمسة مجموعات بيانات عامة. وتميّز نموذجنا بخفض عدد النقرات المطلوبة بنسبة 33.2% و15.5% على التوالي، لتجاوز حد IoU 0.95 مقارنة بالنموذج السابق في مجموعتي Berkeley وDAVIS.