HyperAIHyperAI

Command Palette

Search for a command to run...

BEiT: التدريب المسبق لـ BERT على نماذج المحولات الصورية

Hangbo Bao Li Dong Songhao Piao Furu Wei

الملخص

نقدم نموذج تمثيل بصري ذاتي التدريب BEiT، والذي يرمز إلى تمثيل المُشفِّر ثنائي الاتجاه من نماذج التحويل (Image Transformers). مستوحى من نموذج BERT المطور في مجال معالجة اللغة الطبيعية، نقترح مهمة توليد صور مُقنّعة (masked image modeling) لتدريب النماذج البصرية المُحوّلة مسبقًا. بشكل خاص، يحتوي كل صورة على رؤيتين في مرحلة التدريب المسبق: أولاً، قطع الصورة (مثل مقاييس 16×16 بكسل)، وثانيًا، الرموز البصرية (أي رموز منفصلة). نقوم أولًا بتحويل الصورة الأصلية إلى رموز بصرية. ثم نُقنّع عشوائيًا بعض قطع الصورة ونُدخلها إلى بنية نموذج التحويل الأساسي. ويتمثل هدف التدريب المسبق في استرجاع الرموز البصرية الأصلية استنادًا إلى قطع الصورة المُتضررة. وبعد إتمام التدريب المسبق لنموذج BEiT، نقوم مباشرة بضبط المعلمات النموذجية على المهام التطبيقية من خلال إضافة طبقات مهام على المُشفِّر المُدرّب مسبقًا. تُظهر النتائج التجريبية في تصنيف الصور والتقسيم الدلالي أن نموذجنا يحقق نتائج تنافسية مقارنةً بالطرق السابقة للتدريب المسبق. على سبيل المثال، يحقق نموذج BEiT من النوع الأساسي دقة 83.2% في التصنيف الأولي (top-1) على مجموعة بيانات ImageNet-1K، متفوّقًا بشكل ملحوظ على تدريب DeiT من الصفر بنفس الإعداد (81.8%). علاوة على ذلك، يحقق نموذج BEiT الكبير دقة 86.3% باستخدام فقط مجموعة بيانات ImageNet-1K، متفوّقًا حتى على نموذج ViT-L الذي تم تدريبه باستخدام التدريب المُراقب على مجموعة ImageNet-22K (85.2%). يتوفر الكود والنماذج المُدرّبة مسبقًا على الرابط: https://aka.ms/beit.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp