شبكة التصوير الدلالي للتقسيم الدلالي الصفرية والقليلة التسمية

الترميز الدلالي هو أحد أكثر المشكلات أساسية في رؤية الحاسوب، ويُعدّ تسمية المستويات البكسلية في هذا السياق مكلفًا بشكل خاص. ولهذا السبب، بذلت عدة محاولات لتقليل جهد التسمية، مثل التعلّم من علامات الصور وملامح المستطيلات المحيطة (Bounding Box). في هذه الورقة، نتقدّم خطوة أخرى نحو تقليل هذا الجهد، ونركّز على المهمة الصعبة لتعلم الترميز الدلالي بدون عينات (Zero-shot) وبنموذج محدود من العينات (Few-shot). نُعرّف هذه المهمة على أنها تقسيم الصورة من خلال تعيين علامة لكل بكسل، حتى في حال عدم وجود أي عينة مُعلّمة من هذه الفئة أثناء التدريب، أي الترميز الدلالي بدون عينات (Zero-label Semantic Segmentation)، أو في حال وجود عدد قليل جدًا من العينات المُعلّمة، أي الترميز الدلالي بنموذج محدود من العينات (Few-label Semantic Segmentation). هدفنا هو نقل المعرفة من الفئات التي تم رؤيتها سابقًا إلى فئات جديدة. ويحقق الشبكة الانتقالية الدلالية المقترحة (SPNet) هذا الهدف من خلال دمج معلومات دلالية على مستوى الفئة في أي شبكة مصممة لتقسيم الترميز الدلالي، بطريقة نهائية (end-to-end). كما نقترح معيارًا تجريبيًا لهذا المهمة على مجموعتي بيانات صعبة هما COCO-Stuff وPASCAL VOC12. وتكشف نتائج نموذجنا عن كفاءته في تقسيم الفئات الجديدة، أي تقليل الحاجة إلى التسميات الكثيفة المكلفة، كما يُظهر قدرته على التكيّف مع فئات جديدة دون نسيان المعرفة السابقة، أي تحقيق تقسيم دلالي عام بدون عينات وبنموذج محدود من العينات.