التكبير الأقصى مع متحولات الرؤية يوفق بين الفئة والشكل في التجزئة الدلالية شبه المشرفة

بحث التجزئة الدلالية شبه المُشرف (WSSS) في العديد من الاتجاهات لتحسين الأنبوب النموذجي المكون من الشبكة العصبية المتكررة (CNN) زائد خرائط تنشيط الفئات (CAM) زائد التحسينات، مع إعطاء تصنيف الصورة كإشراف وحيد. رغم أن الفجوة مع الطرق المُشرفة بالكامل قد تقلصت، يبدو أن مزيدًا من الحد منها سيكون صعبًا ضمن هذا الإطار. من ناحية أخرى، لم تستكشف طرق WSSS المستندة إلى متحولات الرؤية (ViT) بدائل صالحة لـ CAM بعد. أظهرت خصائص ViT أنها تحتفظ بتصميم المشهد وحدود الأشياء في التعلم الذاتي المُشرف. للتحقق من هذه النتائج، نثبت أن مزايا المتحولات في الطرق الذاتيّة المُشرفة تقوى أكثر باستخدام التجميع الأقصى العالمي (GMP)، الذي يمكنه الاستفادة من خصائص البِطَاقات لمناقشة احتمالية تسمية البكسل مع احتمالية الفئة. يقترح هذا العمل طريقة جديدة في WSSS تُعرف باسم ViT-PCM (ViT Patch-Class Mapping)، والتي لا تعتمد على CAM. تقوم الشبكة المعروضة بشكل كامل بالتعلم عبر عملية واحدة مُحسّنة، مما يؤدي إلى تشكيل دقيق وتوضع صحيح للأقنعة التجزيعية. حقق نموذجنا أفضل النتائج مقارنة بأحدث الأساليب على أقنعة الوهم الأساسية (BPM)، حيث حصلنا على نسبة تقاطع فوق الاتحاد $69.3\%$ على مجموعة اختبار PascalVOC 2012 $val$. نوضح أن نهجنا يتميز بأقل مجموعة من المعلمات، ومع ذلك يحقق دقة أعلى من جميع الأساليب الأخرى. باختصار، تكشف النتائج الكمية والنوعية لطريقتنا أن ViT-PCM هو بديل ممتاز للهياكل المستندة إلى CNN-CAM.