الاندماج المكاني-العمقي: التجزئة الثنائية للصور من خلال استراتيجية شرائح دقيقة وقبلية سليمة للعمق

التفريق الثنائي للصور (Dichotomous Image Segmentation - DIS) هو مهمة تفصيل كائنات عالية الدقة للصور الطبيعية عالية الدقة. تركز الطرق السائدة حاليًا على تحسين التفاصيل المحلية، لكنها تتجاهل التحدي الأساسي المتمثل في نمذجة سلامة الكائنات. وقد وجدنا أن الابتكار المضمن في "الاستدلال بالعمق السطحي" (depth integrity-prior) الوارد في الخرائط الظاهرية للعمق التي تُولَّد بواسطة نموذج Depth Anything Model v2، إلى جانب سمات التفاصيل المحلية لقطع الصور، يمكن أن يعالج هذه التحديات معًا. استنادًا إلى هذه النتائج، قمنا بتصميم شبكة جديدة تُسمى "شبكة دمج القطع والعمق" (Patch-Depth Fusion Network - PDFNet) لتفريق الصور الثنائي عالي الدقة. تتمحور جوهر PDFNet حول ثلاث جوانب رئيسية. أولاً، يتم تعزيز إدراك الكائنات من خلال دمج مدخلات متعددة الوسائط، حيث تُستخدم استراتيجية تفصيلية دقيقة للقطع (patch fine-grained)، مدعومة باختيار وتعزيز القطع، مما يُحسّن الحساسية تجاه التفاصيل الدقيقة. ثانيًا، وباستخدام الاستدلال بالعمق السطحي الموزع في خرائط العمق، نقترح خسارة تُسمى "خسارة الاستدلال بالسلامة" (integrity-prior loss) لتعزيز الاتساق في نتائج التفريع ضمن خرائط العمق. ثالثًا، نستفيد من سمات المُشفِّر المشترك (shared encoder)، ونُحسّن قدرة هذا المُشفِّر على اكتشاف المعلومات الدقيقة المرتبطة بالعمق من خلال مُفكِّك تحسين عميق بسيط. أظهرت التجارب على مجموعة بيانات DIS-5K أن PDFNet تتفوّق بشكل كبير على الطرق الحديثة غير القائمة على التشتت (non-diffusion). وبفضل دمج الاستدلال بالعمق السطحي، تحقق PDFNet أداءً يعادل أو يتفوّق على أحدث الطرق القائمة على التشتت، مع استخدام أقل من 11٪ من عدد المعلمات المطلوبة في الطرق القائمة على التشتت. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/Tennine2077/PDFNet