EmbedMask: الارتباط المدمج للتقسيم الفرعي ذي المرحلة الواحدة

تشمل الطرق الحالية لتحديد المُسَاقَط (instance segmentation) نوعين رئيسيين: الطرق القائمة على التجزئة التي تُجري التجزئة أولًا ثم تقوم بالتكديس (clustering)، والطرق القائمة على الاقتراحات (proposal-based) التي تُجري الكشف أولًا ثم تُقدّر الأقنعة لكل اقتراح مُنفصل باستخدام عملية إعادة الاستخلاص (repooling). في هذا العمل، نُقدّم طريقة من طراز واحد (one-stage) تُسمى EmbedMask، والتي توحّد بين هذين النمطين من خلال الاستفادة من مزاياهما. تمامًا كما في الطرق القائمة على الاقتراحات، تعتمد EmbedMask على نماذج الكشف، مما يجعلها قوية في قدرتها على الكشف. في الوقت نفسه، تُطبّق EmbedMask وحدات إضافية للتمثيل (embedding) لتوليد تمثيلات للبكسلات والاقتراحات، حيث تُوجَّه تمثيلات البكسلات بواسطة تمثيلات الاقتراحات إذا كانت تنتمي إلى نفس المُسَاقَط. من خلال هذه العملية الترابطية للتمثيلات، تُخصص البكسلات إلى قناع الاقتراح إذا كانت تمثيلاتها متشابهة. يمكّن التكديس على مستوى البكسل من إنشاء أقنعة عالية الدقة دون فقدان التفاصيل الناتجة عن عملية إعادة الاستخلاص، كما أن وجود تمثيل الاقتراح يبسّط ويُقوّي عملية التكديس، مما يؤدي إلى سرعة عالية وأداءً أفضل مقارنةً بالطرق القائمة على التجزئة. وبلا أي إضافات معقدة، تحقق EmbedMask أداءً مماثلاً لـ Mask R-CNN، التي تمثل الطريقة الثنائية المراحل (two-stage) البارزة، وتنشئ أقنعة أكثر تفصيلًا بسرعة أعلى. يُمكن الاطلاع على الكود على منصة github.com/yinghdb/EmbedMask.