الجمع الثنائي السياقي للقصّة الصورية الشاملة

تهدف التقطيع الطبيعي للصور إلى تقدير لوحة ألفا للجسم الأمامي من صورة معطاة. تم استكشاف عدة مناهج لمعالجة هذه المشكلة، مثل الطرق التفاعلية لتقطيع الصور التي تستخدم إرشادات مثل النقر أو الترِماب (trimap)، والطرق التلقائية المخصصة للكائنات المحددة. ومع ذلك، فإن الطرق الحالية لتقطيع الصور مصممة للكائنات أو الإرشادات المحددة، وتجاهلت الحاجة الشائعة إلى دمج السياق العالمي والمحلي في عملية تقطيع الصور. نتيجة لذلك، غالبًا ما تواجه هذه الطرق صعوبات في تحديد الجسم الأمامي بدقة وتكوين حدود دقيقة، مما يحد من فعاليتها في السيناريوهات غير المتوقعة. في هذا البحث، نقترح إطارًا بسيطًا وشاملًا لتقطيع الصور، يُسمى "تقطيع الصور مع اندماج السياق المزدوج" (DCAM)، والذي يتيح تقطيع الصور بثقة مع أي إرشادات أو بدون إرشادات. بشكل خاص، يعتمد DCAM أولاً على شبكة أساسية ذات معنى لاستخراج الميزات منخفضة المستوى وميزات السياق من الصورة المدخلة والإرشادات. ثم، نقدم شبكة لاندماج السياق المزدوج التي تدمج بين مُجمّعات الكائن العالمي ومحفظات المظهر المحلي لتحسين تدريجي لميزات السياق المستخرجة. من خلال تنفيذ كلاً من تقسيم الحدود العالمية وتحسين الحدود المحلية، يُظهر DCAM قدرة عالية على التحمل تجاه أنواع متنوعة من الإرشادات والكائنات. وأخيرًا، نستخدم شبكة فك تقطيع لدمج الميزات منخفضة المستوى مع ميزات السياق المُحسّنة لتقدير لوحة ألفا. أظهرت النتائج التجريبية على خمسة مجموعات بيانات لتقطيع الصور أن DCAM يتفوق على أفضل الطرق الحالية في مهام التقطيع التلقائي والتقطيع التفاعلي، مما يبرز التوجه الشامل القوي والأداء العالي لـ DCAM. يمكن الوصول إلى الكود المصدري عبر الرابط: \url{https://github.com/Windaway/DCAM}.