HyperAIHyperAI

Command Palette

Search for a command to run...

ImageBERT: التدريب متعدد الوسائط باستخدام بيانات الصور والنصوص على نطاق واسع وبإشراف ضعيف

Di Qi; Lin Su; Jia Song; Edward Cui; Taroon Bharti; Arun Sacheti

الملخص

في هذا البحث، نقدم نموذجًا جديدًا مُدربًا مسبقًا للرؤية واللغة -- ImageBERT -- لدمج الصور والنصوص. نموذجنا هو نموذج يعتمد على تقنية الـ Transformer، والذي يستقبل أنماط مختلفة كمدخلات ويقوم بنمذجة العلاقة بينها. تم تدريب النموذج بشكل مسبق على أربع مهام في وقت واحد: نمذجة اللغة المقنّعة (MLM)، تصنيف الأشياء المقنّعة (MOC)، الانحدار الخطي للميزات الإقليمية المقنّعة (MRFR)، وتطابق الصورة مع النص (ITM). لتعزيز جودة التدريب المسبق بشكل أكبر، قمنا بجمع مجموعة بيانات كبيرة الحجم ومُشرف عليها بشكل ضعيف من الإنترنت (LAIT). أولاً، قمنا بتدريب النموذج على هذه المجموعة البيانات، ثم أجرينا مرحلة ثانية من التدريب المسبق باستخدام عناوين المفاهيم وعناوين SBU. تظهر تجاربنا أن استراتيجية التدريب المسبق متعددة المراحل تتفوق على التدريب المسبق بمراحل واحدة. كما قمنا بتكييف وتقييم نموذج ImageBERT الذي تم تدريبه مسبقًا في مهام استرجاع الصور واسترجاع النصوص، وحققنا أفضل النتائج حتى الآن على كل من مجموعتي بيانات MSCOCO وFlickr30k.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ImageBERT: التدريب متعدد الوسائط باستخدام بيانات الصور والنصوص على نطاق واسع وبإشراف ضعيف | مستندات | HyperAI