التمييز الدقيق للغاية في تقسيم الصور الثنائية

نقدم دراسة منهجية حول مهمة جديدة تسمى تقسيم الصور الثنائية (Dichotomous Image Segmentation - DIS)، والتي تهدف إلى فصل الأشياء بدقة عالية من الصور الطبيعية. لهذا الغرض، جمعنا أول قاعدة بيانات على نطاق واسع لـ DIS، تُعرف باسم DIS5K، وتتضمن 5,470 صورة بجودة عالية (مثل 2K، 4K أو أكبر) تغطي أشياء مموهة، أو بارزة، أو دقيقة في خلفيات متنوعة. يتم توثيق DIS باستخدام علامات ذات حبكة دقيقة للغاية. بالإضافة إلى ذلك، نقدم طريقة أساسية بسيطة للإشراف الوسيط (IS-Net) باستخدام إرشاد على مستوى الميزات وعلى مستوى القناع لتدريب نماذج DIS. يتفوق IS-Net على العديد من النماذج الأساسية المتقدمة في القاعدة البيانات المقترحة DIS5K، مما يجعله شبكة إشراف ذاتية عامة يمكنها تسهيل البحث المستقبلي في DIS. علاوة على ذلك، صممنا مؤشراً جديداً يُسمى جهد التصحيح البشري (Human Correction Efforts - HCE)، والذي يقدر عدد عمليات النقر بالفأرة المطلوبة لإصلاح الإيجابيات الكاذبة والسلبيات الكاذبة. يستخدم HCE لقياس الفجوة بين النماذج والتطبيقات العملية وبالتالي يمكن أن يكمل المؤشرات الموجودة. أخيراً، نجري أكبر اختبار معياري، حيث نقيم 16 نموذجاً تمثيلياً للتقسيم، ونقدم مناقشة أكثر رؤية بشأن تعقيدات الأشياء، ونظهر عدة تطبيقات محتملة (مثل إزالة الخلفية، تصميم الفنون، إعادة بناء ثلاثي الأبعاد). نأمل أن تسهم هذه الجهود في فتح اتجاهات واعدة لكل من الأوساط الأكاديمية والصناعية. صفحة المشروع: https://xuebinqin.github.io/dis/index.html.