WeakTr: استكشاف نموذج الرؤية المُتَحَوِّل (Vision Transformer) البسيط للتحليل التصنيفي الشامل المُدرَّب بشكل ضعيف

تستكشف هذه الورقة خصائص نموذج Vision Transformer (ViT) البسيط في مجال التجزئة الدلالية ذات التدريب الضعيف (WSSS). تُعد خريطة تفعيل الفئة (CAM) أمرًا بالغ الأهمية لفهم الشبكات التصنيفية وبدء مهام التجزئة الدلالية ذات التدريب الضعيف. لاحظنا أن رؤوس الانتباه المختلفة في ViT تركز على مناطق مختلفة في الصورة. لذلك، تم اقتراح طريقة جديدة تعتمد على الوزن لتقدير أهمية رؤوس الانتباه بشكل مباشر من البداية إلى النهاية، بينما يتم دمج خرائط الانتباه الذاتي بشكل تكيفي لتحقيق نتائج CAM عالية الجودة، والتي تميل إلى تمثيل الكائنات بشكل أكثر اكتمالاً. بالإضافة إلى ذلك، قمنا بتصميم مُفكِّك مبني على ViT يعتمد على قص التدرج (gradient clipping) لتمكين إعادة التدريب في الوقت الفعلي باستخدام نتائج CAM، بهدف إتمام مهمة التجزئة الدلالية ذات التدريب الضعيف. وسُمّي هذا الإطار القائم على النموذج البسيط لـ ViT للتعلم الضعيف باسم WeakTr. وقد حقق هذا النموذج أداءً متميزًا على المعايير القياسية، حيث بلغ متوسط مؤشر التداخل بين التوقعات والحقائق (mIoU) 78.4% على مجموعة التحقق من PASCAL VOC 2012، و50.3% على مجموعة التحقق من COCO 2014. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/hustvl/WeakTr.