فصل التمثيل للتحليل المعنى باستخدام نماذج الرؤية المُعتمدة على المحولات

يُعدّ تحوّل الرؤية (ViTs)، الذي يُشفّر الصورة كسلسلة من اللوحات، مُبادئ جديدة للفصل الدلالي. نقدّم إطارًا فعّالًا لفصل التمثيل على مستويي اللوحة المحلية والمنطقة العالمية للفصل الدلالي باستخدام ViTs. يُوجّه هذا الإطار إلى المشكلة المميزة لانسيابية النموذج الزائدة (over-smoothness) التي تُعاني منها ViTs في الفصل الدلالي، وبالتالي يختلف عن النماذج الشائعة حاليًا في نمذجة السياق، وكذلك عن معظم الطرق المتعلقة السابقة التي تُعزّز ميزة الانتباه. أولاً، نقدّم شبكة ذات طريقتين منفصلتين (decoupled two-pathway network)، حيث تُعزّز المسار الثانوي التباين بين اللوحات المحلية ويوفره كمكمل للتمثيلات العالمية لمحولات التحول. ثم نقترح وحدة الفصل المُتكيف مكانيًا (spatially adaptive separation module) للحصول على تمثيلات عميقة أكثر انفصالًا، ونُقدّم انتباهًا متقاطعًا تمييزيًا (discriminative cross-attention) يُولّد تمثيلات مناطق أكثر تمييزًا من خلال إشراف تكميلي جديد. تُظهر الطرق المقترحة نتائج مذهلة: 1) عند دمجها مع ViTs كبيرة الحجم دون تحسين، تحقق الأداء الأفضل عالميًا على خمسة معايير شائعة الاستخدام؛ 2) باستخدام ViTs مُدرّبة مسبقًا مع إخفاء (masked pre-trained plain ViTs)، نحقق 68.9% من mIoU على Pascal Context، مُحدثةً سجلًا جديدًا؛ 3) تتجاوز نماذج ViTs الهرمية (pyramid ViTs) المدمجة مع الشبكة ذات الطريقتين المنفصلتين نماذج ViTs عالية الدقة المُصممة بدقة على Cityscapes؛ 4) تُظهر التمثيلات المحسّنة بواسطة إطارنا قابلية انتقالية ممتازة في الصور التي تتعرض لتشويهات طبيعية. سيتم إتاحة الشفرات المصدرية للعامة.