SOGNet: شبكة رسم البيئة المتقاطعة للتقسيم الشامل

تتطلب مهمة التجزئة الشاملة (panoptic segmentation) نتيجة موحدة تُستخلص من نواتج التجزئة المعنى (semantic segmentation) والتجزئة الفردية (instance segmentation)، والتي قد تحتوي على تداخلات. ومع ذلك، تتجاهل الدراسات الحالية بشكل واسع نمذجة هذه التداخلات. في هذه الدراسة، نهدف إلى نمذجة علاقات التداخل بين الكيانات (instances) وحلها لتحسين التجزئة الشاملة. مستوحين من تمثيل رسمة المشهد (scene graph)، نُصِف المشكلة المتعلقة بالتداخل كحالة مبسطة تُسمى "رسمة تداخل المشهد" (scene overlap graph). نستخدم خصائص كل كيان من حيث الفئة (category) والهندسة (geometry) والملامح البصرية (appearance features) لتنفيذ تضمين علاقاتي (relational embedding)، ونُخرِج مصفوفة علاقات تُشْرِح علاقات التداخل. ولتجاوز نقص التدريب المُوجَّه (supervision)، نُقدِّم وحدة قابلة للتفاضل لحل التداخل بين أي زوج من الكيانات. ثم نُدخل القيم المُسَمَّة (mask logits) بعد إزالة التداخلات إلى تصنيف هوية الكيان الفردي (per-pixel instance |id| classification)، والذي يستفيد من التدريب الشامل (panoptic supervision) لمساعدة نمذجة علاقات التداخل. علاوةً على ذلك، نُنشئ تقريبًا لصورة الحقيقة الأساسية (ground truth) لعلاقات التداخل كوسيلة تدريب ضعيفة (weak supervision)، لقياس دقة علاقات التداخل التي تُقدِّمها طريقة العمل. أظهرت التجارب على مجموعتي بيانات COCO وCityscapes أن طريقة العمل قادرة على توقع علاقات التداخل بدقة، وتفوق الأداء المُتقدم في التجزئة الشاملة. كما فازت طريقة العمل بجائزة الابتكار في مسابقة COCO 2019.