HyperAIHyperAI

Command Palette

Search for a command to run...

iBOT: تدريب BERT الصوري مع مُحلِّل الرموز عبر الإنترنت

Jinghao Zhou¹ Chen Wei² Huiyu Wang² Wei Shen³ Cihang Xie⁴ Alan Yuille² Tao Kong¹

الملخص

يُعزى نجاح نماذج التحويل اللغوي (Transformers) بشكل رئيسي إلى مهمة النص المسبقة المعروفة بنموذج اللغة المقنّع (Masked Language Modeling - MLM)، حيث يتم تجزئة النصوص أولاً إلى قطع ذات معنى لغوي. في هذا البحث، ندرس نموذج الصورة المقنّع (Masked Image Modeling - MIM) ونوضح مزايا واستحقاقات استخدام مجزِّء بصري ذي معنى لغوي. نقدم إطارًا ذاتي الرقابة يُعرف باسم iBOT يمكنه تنفيذ التنبؤ المقنّع باستخدام مجزِّء يعمل في الوقت الفعلي. تحديداً، نقوم بالتكثيف الذاتي على رموز البُقع المقنّعة ونعتبر الشبكة التعليمية كمجزِّء في الوقت الفعلي، بالإضافة إلى التكثيف الذاتي على رمز الفصل للحصول على معاني بصرية. يمكن تعلم مجزِّء الوقت الفعلي بشكل مشترك مع هدف MIM ويتجنب الحاجة إلى خطوات متعددة من عملية التدريب حيث يجب تدريب المجزِّء مسبقًا. نظهر الريادة التي حققها iBOT من خلال الوصول إلى دقة استكشاف خطي بنسبة 82.3٪ ودقة تعديل دقيقة بنسبة 87.8٪ عند تقييمه على ImageNet-1K. بالإضافة إلى النتائج الرائدة في تصنيف الصور، نؤكد ظهور أنماط معنى محلية جديدة، مما يساعد النماذج على الحصول على قوة مقاومة عالية ضد الانحرافات الشائعة وتحقيق أفضل النتائج في المهام التالية الكثيفة مثل اكتشاف الأشياء، والتقسيم المستقبلي، والتقسيم الدلالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
iBOT: تدريب BERT الصوري مع مُحلِّل الرموز عبر الإنترنت | مستندات | HyperAI