شبكة استخراج ودمج الميزات الموجهة بـ Trimap لقص الصور الطبيعية

يُعد استخدام التوجيه عبر الـ trimap ودمج الميزات متعددة المستويات من القضايا المهمة في عملية التفتيت القائمة على الـ trimap مع التنبؤ على مستوى البكسل. لاستغلال التوجيه عبر الـ trimap، تعتمد معظم الطرق الحالية على دمج الـ trimap مع الصور مباشرةً وتقديمها إلى شبكة عميقة، أو استخدام شبكة إضافية لاستخراج توجيهات أكثر من الـ trimap، وهو ما يُحدث تناقضاً بين الكفاءة والفعالية. أما بالنسبة للدمج المُستند إلى الميزات المُستندة إلى المحتوى، فإن معظم الطرق الحالية للتفتيت تركز فقط على الميزات المحلية، والتي تفتقر إلى توجيه الميزات العالمية الغنية بالمعلومات الدلالية المتعلقة بالكائن المهم. في هذه الورقة، نقترح شبكة تُسمى TMFNet (Trimap-Guided Feature Mining and Fusion Network)، تتكون من وحدة تجميع متعددة المقياس الموجهة بالـ trimap (TMP) ووحدات دمج سياقي متعدد الميزات تأخذ بعين الاعتبار السياق العالمي والمحلي (GLF). وبما أن الـ trimap يوفر توجيهاً دلالياً قوياً، فإن وحدة TMP تركز على استخراج الميزات الفعالة المتعلقة بالكائنات المهمة تحت توجيه الـ trimap دون الحاجة إلى معلمات إضافية. علاوةً على ذلك، تستخدم وحدات GLF المعلومات الدلالية العالمية المتعلقة بالكائنات المهمة التي استُخرجت بواسطة وحدة TMP لتوجيه دمج فعّال للميزات متعددة المستويات يراعي السياق العالمي والمحلي. بالإضافة إلى ذلك، قمنا بإنشاء مجموعة بيانات موحدة للتفتيت الكائنات المهمة (CIOM) لدفع تقدم التفتيت عالي الجودة للصور. وتحديدًا، أظهرت النتائج على مجموعة Composition-1k وناتج مجموعة CIOM أن طريقة TMFNet حققت تحسناً نسبياً بنسبة 13% و25% على معيار SAD، على التوالي، مقارنةً بمنصة قوية ذات عدد أقل من المعلمات و14% أقل من العمليات الحسابية (FLOPs). وتوصلت النتائج التجريبية على مجموعة التحقق من Composition-1k، وbenchmark Alphamatting، ومجموعة التحقق من CIOM إلى أن طريقة المقترحة تتفوق على أحدث الطرق المطورة. يُمكن الوصول إلى الكود والنماذج الخاصة بنا عبر الرابط: https://github.com/Serge-weihao/TMF-Matting.