HyperAIHyperAI

Command Palette

Search for a command to run...

WeakTr: استكشاف نموذج الرؤية المُتَحَوِّل (Vision Transformer) البسيط للتحليل التصنيفي الشامل المُدرَّب بشكل ضعيف

Lianghui Zhu Yingyue Li Jiemin Fang Yan Liu Hao Xin Wenyu Liu Xinggang Wang

الملخص

تستكشف هذه الورقة خصائص نموذج Vision Transformer (ViT) البسيط في مجال التجزئة الدلالية ذات التدريب الضعيف (WSSS). تُعد خريطة تفعيل الفئة (CAM) أمرًا بالغ الأهمية لفهم الشبكات التصنيفية وبدء مهام التجزئة الدلالية ذات التدريب الضعيف. لاحظنا أن رؤوس الانتباه المختلفة في ViT تركز على مناطق مختلفة في الصورة. لذلك، تم اقتراح طريقة جديدة تعتمد على الوزن لتقدير أهمية رؤوس الانتباه بشكل مباشر من البداية إلى النهاية، بينما يتم دمج خرائط الانتباه الذاتي بشكل تكيفي لتحقيق نتائج CAM عالية الجودة، والتي تميل إلى تمثيل الكائنات بشكل أكثر اكتمالاً. بالإضافة إلى ذلك، قمنا بتصميم مُفكِّك مبني على ViT يعتمد على قص التدرج (gradient clipping) لتمكين إعادة التدريب في الوقت الفعلي باستخدام نتائج CAM، بهدف إتمام مهمة التجزئة الدلالية ذات التدريب الضعيف. وسُمّي هذا الإطار القائم على النموذج البسيط لـ ViT للتعلم الضعيف باسم WeakTr. وقد حقق هذا النموذج أداءً متميزًا على المعايير القياسية، حيث بلغ متوسط مؤشر التداخل بين التوقعات والحقائق (mIoU) 78.4% على مجموعة التحقق من PASCAL VOC 2012، و50.3% على مجموعة التحقق من COCO 2014. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/hustvl/WeakTr.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp