FocusCut: الغوص في منظور التركيز في التجزئة التفاعلية

التصنيف التفاعلي للصور هو أداة أساسية في التسمية على مستوى البكسل وتحرير الصور. لاستخراج قناع تصنيف ثنائي عالي الدقة، يميل المستخدمون إلى إضافة نقرات تفاعلية حول تفاصيل الكائن، مثل الحواف والثقوب، لتحسين الدقة بكفاءة. تُعامل الطرق الحالية هذه النقرات التصحيحية كإرشادات لتحديد التنبؤ العالمي بشكل مشترك. ومع ذلك، فإن النظرة الشاملة تؤدي إلى فقدان النموذج تركيزه تجاه النقرات اللاحقة، مما لا يتماشى مع نية المستخدم. في هذه الورقة، نتعمق في رؤية نقرات العين لنعيد إليها الدور الحاسم في تفاصيل الكائن. وللتحقق من ضرورة النظرة المركزة، قمنا بتصميم مسار بسيط وفعّال يُسمّى FocusCut، الذي يدمج وظائف التصنيف الكائنات والتحسين المحلي. بعد الحصول على التنبؤ العالمي، يُقطع FocusCut نماذج مركزية حول النقرات من الصورة الأصلية باستخدام نطاقات مُعدّلة تلقائيًا لتحسين التنبؤات المحلية تدريجيًا. وبلا حاجة إلى تفاعل المستخدم أو زيادة المعاملات، حققنا نتائج تفوق الأفضل في المجال. وتشير التجارب الواسعة والنتائج المرئية إلى أن FocusCut يجعل التصنيف الدقيق جدًا ممكنًا في التصنيف التفاعلي للصور.