HyperAIHyperAI
منذ 11 أيام

BEiT: التدريب المسبق لـ BERT على نماذج المحولات الصورية

Hangbo Bao, Li Dong, Songhao Piao, Furu Wei
BEiT: التدريب المسبق لـ BERT على نماذج المحولات الصورية
الملخص

نقدم نموذج تمثيل بصري ذاتي التدريب BEiT، والذي يرمز إلى تمثيل المُشفِّر ثنائي الاتجاه من نماذج التحويل (Image Transformers). مستوحى من نموذج BERT المطور في مجال معالجة اللغة الطبيعية، نقترح مهمة توليد صور مُقنّعة (masked image modeling) لتدريب النماذج البصرية المُحوّلة مسبقًا. بشكل خاص، يحتوي كل صورة على رؤيتين في مرحلة التدريب المسبق: أولاً، قطع الصورة (مثل مقاييس 16×16 بكسل)، وثانيًا، الرموز البصرية (أي رموز منفصلة). نقوم أولًا بتحويل الصورة الأصلية إلى رموز بصرية. ثم نُقنّع عشوائيًا بعض قطع الصورة ونُدخلها إلى بنية نموذج التحويل الأساسي. ويتمثل هدف التدريب المسبق في استرجاع الرموز البصرية الأصلية استنادًا إلى قطع الصورة المُتضررة. وبعد إتمام التدريب المسبق لنموذج BEiT، نقوم مباشرة بضبط المعلمات النموذجية على المهام التطبيقية من خلال إضافة طبقات مهام على المُشفِّر المُدرّب مسبقًا. تُظهر النتائج التجريبية في تصنيف الصور والتقسيم الدلالي أن نموذجنا يحقق نتائج تنافسية مقارنةً بالطرق السابقة للتدريب المسبق. على سبيل المثال، يحقق نموذج BEiT من النوع الأساسي دقة 83.2% في التصنيف الأولي (top-1) على مجموعة بيانات ImageNet-1K، متفوّقًا بشكل ملحوظ على تدريب DeiT من الصفر بنفس الإعداد (81.8%). علاوة على ذلك، يحقق نموذج BEiT الكبير دقة 86.3% باستخدام فقط مجموعة بيانات ImageNet-1K، متفوّقًا حتى على نموذج ViT-L الذي تم تدريبه باستخدام التدريب المُراقب على مجموعة ImageNet-22K (85.2%). يتوفر الكود والنماذج المُدرّبة مسبقًا على الرابط: https://aka.ms/beit.