Segmenter: Transformer للفصل الدلالي

يُعد التجزئة الصورية غالبًا غامضة على مستوى البلاطات الفردية للصورة، وتحتاج إلى معلومات سياقية للتوصل إلى اتساق في التسمية. في هذه الورقة، نقدم نموذج "Segmenter"، وهو نموذج مُحول (Transformer) مُخصص لتجزئة المعنى. على عكس الأساليب القائمة على التحويل التكاملي (Convolution-based)، يتيح نهجنا نمذجة السياق العالمي منذ الطبقة الأولى وحتى نهاية الشبكة. نعتمد على نموذج "Vision Transformer" (ViT) الحديث ونُوسِّعه ليدعم تجزئة المعنى. ولتحقيق ذلك، نعتمد على المُدمجات الناتجة المقابلة لبلاطات الصورة، ونستخلص التسميات الفئوية من هذه المُدمجات باستخدام مُفكّك خطي نقطي أو مُفكّك مُحول للقناع. نستفيد من النماذج المُدرّبة مسبقًا على تصنيف الصور، ونُظهر أنه يمكننا تحسينها دقيقًا على مجموعات بيانات متوسطة الحجم المتاحة لتجزئة المعنى. يُمكن الحصول على نتائج ممتازة باستخدام المُفكّك الخطي، ولكن يمكن تحسين الأداء بشكل أكبر باستخدام مُفكّك مُحول للقناع يُولِّد قُناعات فئوية. أجرينا دراسة تحليلية واسعة لتحديد تأثير المعلمات المختلفة، وتبين أن الأداء يكون أفضل في النماذج الكبيرة وبأحجام صغيرة للبلاطات. يحقق "Segmenter" نتائج ممتازة في تجزئة المعنى، ويتفوق على أحدث النماذج على كلا مجموعتي البيانات ADE20K وPascal Context، كما يُعد منافسًا قويًا على مجموعة Cityscapes.