HyperAIHyperAI

Command Palette

Search for a command to run...

SegViT: التجزئة الدلالية باستخدام نماذج الرؤية البسيطة المُستندة إلى التحويلات

Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin Wei Chunhua Shen Yifan Liu

الملخص

نستكشف القدرة المُقدَّرة للنماذج البسيطة من نماذج التحويل البصري (ViTs) في التجزئة الدلالية، ونُقدِّم نموذج SegVit. في معظم الشبكات السابقة القائمة على ViT للتجزئة، يتم تعلُّم تمثيل على مستوى البكسل من مخرجات ViT. على النقيض من ذلك، نستفيد من المكوّن الأساسي — آلية الانتباه — لإنشاء أقنعة للتجزئة الدلالية. بشكل محدد، نقترح وحدة التحويل من الانتباه إلى القناع (ATM)، حيث تُحوَّل خرائط التشابه بين مجموعة من رموز الفئة القابلة للتعلُّم وخرائط الميزات المكانية إلى أقنعة التجزئة. تُظهر التجارب أن نموذج SegVit المقترح باستخدام وحدة ATM يتفوّق على النماذج المماثلة التي تعتمد على هيكل ViT التقليدي على مجموعة بيانات ADE20K، ويحقق أداءً جديدًا على مستوى الحد الأقصى على مجموعتي بيانات COCO-Stuff-10K وPASCAL-Context. علاوةً على ذلك، لخفض التكلفة الحسابية لهيكل ViT، نقترح تقنيتي التناقص القائم على الاستعلام (QD) والترقية القائمة على الاستعلام (QU) لبناء هيكل مُختزل (Shrunk). وباستخدام الهيكل المُختزل المقترح، يمكن للنموذج تقليل الاستهلاك الحسابي بنسبة تصل إلى 40% مع الحفاظ على أداء تنافسي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp