توسيع التصنيف الشمولي متعدد المجالات باستخدام تضمينات الجملة

نُقدِّم نهجًا للفصل الدلالي يحقق أداءً متفوقًا في البيئة المراقبة عند تطبيقه في بيئة صفرية (zero-shot). وبالتالي، يُحقِّق نتائج مكافئة لأداء الطرق المراقبة، على كلٍّ من المجموعات الرئيسية للفصل الدلالي، دون تدريب على تلك المجموعات. يتم ذلك عن طريق استبدال كل تسمية فئة بتمثيل متجهي (embedding) لفقرة قصيرة تصف تلك الفئة. تُميّز هذه الطريقة بعموميتها وبساطتها، مما يمكّن من دمج عدة مجموعات بيانات من مجالات مختلفة، لكل منها تسميات ودلالات مختلفة. يؤدي هذا الدمج إلى إنشاء مجموعة بيانات فصل دلالي مدمجة تضم أكثر من مليوني صورة، تُستخدم لتدريب نموذج يحقق أداءً مماثلًا لأفضل النماذج المراقبة على 7 مجموعات معيارية، رغم عدم استخدام أي صور من تلك المجموعات. وباستخدام التدريب الدقيق (fine-tuning) للنموذج على مجموعات بيانات فصل دلالي شائعة، نحقق تحسنًا كبيرًا مقارنة بأفضل النماذج المراقبة في فصل الدلالي على مجموعتي NYUD-V2 وPASCAL-context، بتحقيق دقة mIoU تبلغ 60% و65% على التوالي. وباستنادًا إلى قرب تمثيلات اللغة، يمكن لطريقتنا حتى فصل التسميات غير المرئية. تُظهر التجارب الواسعة قدرة قوية على التعميم على مجالات صور غير مرئية وتسميات غير مرئية، كما تُظهر أن الطريقة تُحدث تحسينات مذهلة في التطبيقات اللاحقة، بما في ذلك تقدير العمق والفصل التماثلي (instance segmentation).