HyperAIHyperAI
منذ 2 أشهر

iBOT: تدريب BERT الصوري مع مُحلِّل الرموز عبر الإنترنت

Jinghao Zhou; Chen Wei; Huiyu Wang; Wei Shen; Cihang Xie; Alan Yuille; Tao Kong
iBOT: تدريب BERT الصوري مع مُحلِّل الرموز عبر الإنترنت
الملخص

يُعزى نجاح نماذج التحويل اللغوي (Transformers) بشكل رئيسي إلى مهمة النص المسبقة المعروفة بنموذج اللغة المقنّع (Masked Language Modeling - MLM)، حيث يتم تجزئة النصوص أولاً إلى قطع ذات معنى لغوي. في هذا البحث، ندرس نموذج الصورة المقنّع (Masked Image Modeling - MIM) ونوضح مزايا واستحقاقات استخدام مجزِّء بصري ذي معنى لغوي. نقدم إطارًا ذاتي الرقابة يُعرف باسم iBOT يمكنه تنفيذ التنبؤ المقنّع باستخدام مجزِّء يعمل في الوقت الفعلي. تحديداً، نقوم بالتكثيف الذاتي على رموز البُقع المقنّعة ونعتبر الشبكة التعليمية كمجزِّء في الوقت الفعلي، بالإضافة إلى التكثيف الذاتي على رمز الفصل للحصول على معاني بصرية. يمكن تعلم مجزِّء الوقت الفعلي بشكل مشترك مع هدف MIM ويتجنب الحاجة إلى خطوات متعددة من عملية التدريب حيث يجب تدريب المجزِّء مسبقًا. نظهر الريادة التي حققها iBOT من خلال الوصول إلى دقة استكشاف خطي بنسبة 82.3٪ ودقة تعديل دقيقة بنسبة 87.8٪ عند تقييمه على ImageNet-1K. بالإضافة إلى النتائج الرائدة في تصنيف الصور، نؤكد ظهور أنماط معنى محلية جديدة، مما يساعد النماذج على الحصول على قوة مقاومة عالية ضد الانحرافات الشائعة وتحقيق أفضل النتائج في المهام التالية الكثيفة مثل اكتشاف الأشياء، والتقسيم المستقبلي، والتقسيم الدلالي.

iBOT: تدريب BERT الصوري مع مُحلِّل الرموز عبر الإنترنت | أحدث الأوراق البحثية | HyperAI