HyperAIHyperAI

Command Palette

Search for a command to run...

VL-BERT: التدريب المسبق لتمثيلات بصرية-لغوية عامة

Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei Jifeng Dai

الملخص

نقدم تمثيلًا عامًا قابلًا للتدريب المسبق لمهام التكامل البصري-اللغوي، يُعرف باسم Visual-Linguistic BERT (اختصارًا: VL-BERT). يستخدم VL-BERT نموذج Transformer البسيط والقوي كأساس، ويعززه ليقبل ميزات مدمجة بصرية ولغوية كمدخلات. في هذا النموذج، يكون كل عنصر من عناصر المدخل إما كلمة من الجملة المدخلة أو منطقة اهتمام (RoI) من الصورة المدخلة. صُمم هذا النموذج ليتناسب مع معظم مهام التكامل البصري-اللغوي اللاحقة. لاستغلال هذا التمثيل العام بشكل أفضل، قمنا بتدريب VL-BERT بشكل مسبق على مجموعة بيانات Conceptual Captions الضخمة الحجم بالإضافة إلى مجموعة نصوص فقط. أظهرت التحليلات التجريبية الواسعة أن عملية التدريب المسبق يمكنها تحسين تناسق الأدلة البصرية واللغوية وتعزيز مهام اللاحقة مثل استدلال العقل البصري، الإجابة على الأسئلة البصرية وفهم التعابير المرجعية. من الجدير بالذكر أن VL-BERT حاز على المركز الأول كنموذج فردي في لوحة تصنيف معيار VCR. تم نشر الكود في \url{https://github.com/jackroos/VL-BERT}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp