SegViT: التجزئة الدلالية باستخدام نماذج الرؤية البسيطة المُستندة إلى التحويلات

نستكشف القدرة المُقدَّرة للنماذج البسيطة من نماذج التحويل البصري (ViTs) في التجزئة الدلالية، ونُقدِّم نموذج SegVit. في معظم الشبكات السابقة القائمة على ViT للتجزئة، يتم تعلُّم تمثيل على مستوى البكسل من مخرجات ViT. على النقيض من ذلك، نستفيد من المكوّن الأساسي — آلية الانتباه — لإنشاء أقنعة للتجزئة الدلالية. بشكل محدد، نقترح وحدة التحويل من الانتباه إلى القناع (ATM)، حيث تُحوَّل خرائط التشابه بين مجموعة من رموز الفئة القابلة للتعلُّم وخرائط الميزات المكانية إلى أقنعة التجزئة. تُظهر التجارب أن نموذج SegVit المقترح باستخدام وحدة ATM يتفوّق على النماذج المماثلة التي تعتمد على هيكل ViT التقليدي على مجموعة بيانات ADE20K، ويحقق أداءً جديدًا على مستوى الحد الأقصى على مجموعتي بيانات COCO-Stuff-10K وPASCAL-Context. علاوةً على ذلك، لخفض التكلفة الحسابية لهيكل ViT، نقترح تقنيتي التناقص القائم على الاستعلام (QD) والترقية القائمة على الاستعلام (QU) لبناء هيكل مُختزل (Shrunk). وباستخدام الهيكل المُختزل المقترح، يمكن للنموذج تقليل الاستهلاك الحسابي بنسبة تصل إلى 40% مع الحفاظ على أداء تنافسي.