HyperAIHyperAI

Command Palette

Search for a command to run...

ViLBERT: التدريب المسبق لتمثيلات بصرية لغوية غير مرتبطة بالمهمة لمهام الرؤية واللغة

Jiasen Lu; Dhruv Batra; Devi Parikh; Stefan Lee

الملخص

نقدم نموذج ViLBERT (اختصار لـ Vision-and-Language BERT)، وهو نموذج لتعلم تمثيلات مشتركة غير محددة المهمة لمحتوى الصور واللغة الطبيعية. قمنا بتوسيع هندسة BERT الشهيرة إلى نموذج متعدد الوسائط ذو تيارين، يعالج المدخلات البصرية والنصية في تيارين منفصلين يتفاعلان من خلال طبقات الترانسفورمر المشتركة بالانتباه. نقوم بتدريب النموذج مسبقًا من خلال مهمتين وكيتين على مجموعة البيانات الكبيرة والمجمعة تلقائيًا Conceptual Captions، ثم ننقله إلى عدة مهمات راسخة في مجال الرؤية واللغة -- الإجابة على الأسئلة البصرية، الاستدلال البصري بالمعرفة الشائعة، التعبيرات المرجعية، واسترجاع الصور بناءً على العناوين -- بإضافة تعديلات طفيفة فقط لهندسة النموذج الأساسية. نلاحظ تحسينات كبيرة في جميع المهام مقارنة بالنموذج المحدد للمهمة الموجود حاليًا -- حيث حققنا أفضل الأداء في جميع الأربع مهام. يمثل عملنا تحولًا بعيدًا عن تعلم الروابط بين الرؤية واللغة كجزء فقط من تدريب المهمة نحو معاملة التأصيل البصري كقدرة قابلة للتدريب المسبق والنقل.请注意,这里的人名和机构名称如“ViLBERT”、“BERT”、“Conceptual Captions”等均保留了英文原名,以确保专业性和信息的完整性。同时,译文在保持原意的基础上进行了适当的结构调整,以适应阿拉伯语的表达习惯。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp