التمييز الدلالي بدون تدريب مسبق

النماذج التجزيئية الدلالية محدودة في قدرتها على التوسع إلى أعداد كبيرة من فئات الأشياء. في هذا البحث، نقدم مهمة جديدة تُسمى التجزئة الدلالية بدون أمثلة: تعلم تصنيفات البكسل لفئات الأشياء التي لم يتم رؤيتها من قبل دون أمثلة تدريبية. لهذا الغرض، نقدم بنية جديدة تُسمى ZS3Net، والتي تجمع بين نموذج تجزئة بصري عميق ونهج لتوليد تمثيلات بصرية من مضمنات الكلمات الدلالية. بهذه الطريقة، يعالج ZS3Net مهام تصنيف البكسل حيث يتم مواجهة الفئات المرئية وغير المرئية أثناء الاختبار (والتي تُعرف بـ "التصنيف بدون أمثلة المعمم"). يتم تحسين الأداء بشكل أكبر من خلال خطوة تعليم ذاتي تعتمد على وضع علامات زائفة آلية للبكسل من الفئات غير المرئية. على مجموعتين قياسيتين للتجزيئة، Pascal-VOC وPascal-Context، نقترح مقاييس بدون أمثلة ونحدد خطوط أساس تنافسية. بالنسبة للمشاهد المعقدة مثل تلك الموجودة في مجموعة بيانات Pascal-Context، نوسع نهجنا باستخدام ترميز السياق الرسومي للاستفادة الكاملة من الأولويات المكانية النابعة من خرائط التجزئة حسب الفئة.