منذ 3 أشهر

مُؤَشِّرَات تلقائية مُحَجَّبَة مُتَعَمِّدَة لتدريب النموذج البصري BERT

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu

الملخص

نُقدّم نموذجًا جديدًا يُدعى "مُشفّرات الترميز المُتعدّدة المُستندة إلى التقييم التكراري" (BootMAE)، وهو منهجية جديدة لتدريب النماذج البصرية من نوع BERT. يُحسّن BootMAE النموذج الأصلي لـ MAE من خلال تصميمين رئيسيين: (1) مُشفر مُتدرج (momentum encoder) الذي يوفّر ميزات مباشرة كأهداف تنبؤية إضافية لنموذج BERT؛ و(2) مُفكّك مُوجّه حسب الهدف (target-aware decoder) الذي يسعى لتقليل الضغط الملقى على المُشفر لحفظ المعلومات المخصصة للهدف أثناء تدريب BERT. يُستمد التصميم الأول من ملاحظة تشير إلى أن استخدام نموذج MAE مُدرّب مسبقًا لاستخراج الميزات كأهداف تنبؤية للفقرات المُخفية (masked tokens) يؤدي إلى تحسين أداء التدريب المسبق. لذلك، نُضيف مُشفرًا مُتدرجًا بالتوازي مع المُشفر الأصلي لـ MAE، والذي يُعزّز أداء التدريب المسبق من خلال استخدام تمثيلاته الخاصة كأهداف تنبؤية لنموذج BERT. أما التصميم الثاني، فيُدخل معلومات مخصصة للهدف (مثل قيم البكسل في البكسلات غير المُخفية) مباشرة من المُشفر إلى المُفكّك، بهدف تقليل الضغط على المُشفر لحفظ هذه المعلومات المخصصة. وبذلك، يركز المُشفر على نمذجة المعنى (semantic modeling)، وهو الهدف الأساسي لتدريب BERT، دون الحاجة إلى استهلاك قدرته في حفظ معلومات البكسلات غير المُخفية المرتبطة بالهدف. من خلال تجارب واسعة، حقق BootMAE دقة Top-1 تبلغ 84.2% على مجموعة بيانات ImageNet-1K باستخدام هيكل ViT-B، متفوّقًا على MAE بفارق 0.8% ضمن نفس عدد دورات التدريب المسبق. كما حقق BootMAE تحسينًا بقيمة +1.0 في مقياس mIoU على مهام التصنيف البصري في مجموعة بيانات ADE20K، وتحسينًا بقيمة +1.3 في مقياس box AP و+1.4 في مقياس mask AP على مهام الكشف عن الكائنات والتصنيف في مجموعة بيانات COCO. تم إتاحة الشفرة المصدرية على الرابط: https://github.com/LightDXY/BootMAE.