FocalClick: نحو التجزئة التفاعلية للصور العملية

يسمح التجزئة التفاعلية للمستخدمين باستخراج الأقنعة المستهدفة من خلال النقرات الإيجابية أو السلبية. وعلى الرغم من الاستكشاف الواسع لهذا المجال في العديد من الدراسات السابقة، تظل هناك فجوة بين النماذج الأكاديمية والاحتياجات الصناعية: أولاً، النماذج الحالية ليست كافية الكفاءة للعمل على الأجهزة ذات الطاقة المنخفضة؛ ثانيًا، تؤدي أداءً ضعيفًا عند استخدامها لتحسين الأقنعة الموجودة مسبقًا، حيث لا تستطيع تجنب تدمير الأجزاء الصحيحة. يحل نموذج FocalClick هاتين المشكلتين معًا من خلال توقع وتحديث القناع في مناطق محدودة. ولتحقيق كفاءة أعلى، نقوم بتحليل التنبؤ البطيء على الصورة الكاملة إلى تنبؤين سريعين على مقاطع صغيرة: تجزئة خشنة على "القطعة المستهدفة"، وتحسين محلي على "القطعة المركزية". ولتمكين النموذج من العمل مع الأقنعة الموجودة مسبقًا، نُعرّف مهمة فرعية تُسمى "تصحيح القناع التفاعلي"، ونُقدّم حلًا يُسمى "الدمج التدريجي". يعتمد الدمج التدريجي على المعلومات الهيكلية لتحديد أماكن الحفاظ على الأجزاء الحالية وتحديث الأجزاء الأخرى، مما يمكّن المستخدمين من تحسين أي قناع موجود مسبقًا بشكل فعّال. يحقق FocalClick نتائج تنافسية مقارنة بالأساليب الحديثة (SOTA) مع عدد مقلل بشكل كبير من العمليات الحسابية (FLOPs). كما يظهر تفوقًا ملحوظًا عند إجراء تصحيحات على الأقنعة الموجودة مسبقًا. سيتم إتاحة الكود والبيانات على GitHub: github.com/XavierCHEN34/ClickSEG