مُحَوِّل التجزئة: تمثيلات سياقية كائنية لتمييز الدلالة

في هذه الورقة، نتناول مشكلة التجزئة الدلالية مع التركيز على استراتيجية تجميع السياق. تكمن دوافعنا في أن التصنيف الخاص ببكسل ما يشير إلى فئة الكائن الذي ينتمي إليه هذا البكسل. نقدم نهجًا بسيطًا ولكن فعّالًا يُعرف بتمثيلات السياق الكائني، حيث نُوصِف البكسل من خلال استغلال تمثيل الفئة الكائنية المقابلة. أولاً، نتعلم مناطق الكائنات تحت إشراف التجزئة الحقيقية (ground-truth). ثانيًا، نحسب تمثيل منطقة الكائن من خلال تجميع تمثيلات البكسلات الواقعة داخل تلك المنطقة. أخيرًا، نحسب التشابه بين تمثيل كل بكسل وجميع مناطق الكائنات، ثم نُعزز تمثيل كل بكسل باستخدام تمثيل السياق الكائني، والذي يُعد تجميعًا موزونًا لجميع تمثيلات مناطق الكائنات بناءً على علاقتها بالبكسل. ونُظهر تجريبيًا أن النهج المقترح يحقق أداءً تنافسيًا على مجموعة متنوعة من معايير التجزئة الدلالية الصعبة: Cityscapes، ADE20K، LIP، PASCAL-Context، وCOCO-Stuff. كما أن مشاركتنا "HRNet + OCR + SegFix" حققت المركز الأول في قائمة التصنيف الخاصة بـ Cityscapes وقت التقديم. يُمكن الوصول إلى الكود من خلال: https://git.io/openseg و https://git.io/HRNet.OCR. قمنا بإعادة صياغة نموذج تمثيل السياق الكائني باستخدام إطار عمل مُشفّر-مُفكّك Transformer. تُقدَّم التفاصيل في القسم 3.3.