HyperAIHyperAI
منذ 17 أيام

SegViT: التجزئة الدلالية باستخدام نماذج الرؤية البسيطة المُستندة إلى التحويلات

Bowen Zhang, Zhi Tian, Quan Tang, Xiangxiang Chu, Xiaolin Wei, Chunhua Shen, Yifan Liu
SegViT: التجزئة الدلالية باستخدام نماذج الرؤية البسيطة المُستندة إلى التحويلات
الملخص

نستكشف القدرة المُقدَّرة للنماذج البسيطة من نماذج التحويل البصري (ViTs) في التجزئة الدلالية، ونُقدِّم نموذج SegVit. في معظم الشبكات السابقة القائمة على ViT للتجزئة، يتم تعلُّم تمثيل على مستوى البكسل من مخرجات ViT. على النقيض من ذلك، نستفيد من المكوّن الأساسي — آلية الانتباه — لإنشاء أقنعة للتجزئة الدلالية. بشكل محدد، نقترح وحدة التحويل من الانتباه إلى القناع (ATM)، حيث تُحوَّل خرائط التشابه بين مجموعة من رموز الفئة القابلة للتعلُّم وخرائط الميزات المكانية إلى أقنعة التجزئة. تُظهر التجارب أن نموذج SegVit المقترح باستخدام وحدة ATM يتفوّق على النماذج المماثلة التي تعتمد على هيكل ViT التقليدي على مجموعة بيانات ADE20K، ويحقق أداءً جديدًا على مستوى الحد الأقصى على مجموعتي بيانات COCO-Stuff-10K وPASCAL-Context. علاوةً على ذلك، لخفض التكلفة الحسابية لهيكل ViT، نقترح تقنيتي التناقص القائم على الاستعلام (QD) والترقية القائمة على الاستعلام (QU) لبناء هيكل مُختزل (Shrunk). وباستخدام الهيكل المُختزل المقترح، يمكن للنموذج تقليل الاستهلاك الحسابي بنسبة تصل إلى 40% مع الحفاظ على أداء تنافسي.

SegViT: التجزئة الدلالية باستخدام نماذج الرؤية البسيطة المُستندة إلى التحويلات | أحدث الأوراق البحثية | HyperAI