HyperAIHyperAI

Command Palette

Search for a command to run...

VLMo: التدريب المسبق الموحّد للرؤية واللغة مع مزيج من الخبراء حسب الوسائط

Hangbo Bao Wenhui Wang Li Dong Qiang Liu Owais Khan Mohammed Kriti Aggarwal Subhojit Som Furu Wei

الملخص

نقدم نموذجًا مُدرَّبًا مسبقًا موحدًا للرؤية واللغة (VLMo) يتعلّم بشكل مشترك مُشفرَين مزدوجين ومشفرًا تجميعيًا باستخدام شبكة ترانسفورمر منظومة. وبشكل خاص، نقدّم ترانسفورمر مزيج الخبراء حسب الوسائط (MoME)، حيث يحتوي كل كتلة على مجموعة من الخبراء المخصصة للوسائط المختلفة، بالإضافة إلى طبقة انتباه ذاتي مشتركة. وبفضل المرونة في النمذجة التي يوفرها MoME، يمكن تدريب VLMo المسبقًا ثم تعديله دقيقًا كمشفر تجميعي للمهام التصنيفية للرؤية واللغة، أو استخدامه كمشفر مزدوج لاسترجاع الصور والنصوص بكفاءة. علاوةً على ذلك، نقترح استراتيجية تدريب متعددة المراحل، والتي تستفيد بشكل فعّال من بيانات كبيرة الحجم فقط بالصورة أو فقط بالنص، بالإضافة إلى أزواج الصورة والنص. تُظهر النتائج التجريبية أن VLMo يحقق نتائج متقدمة على مستوى الحد الأقصى في مهام متعددة للرؤية واللغة، بما في ذلك VQA وNLVR2 واسترجاع الصور والنصوص. يتوفر الكود والنماذج المدرّبة مسبقًا على الرابط: https://aka.ms/vlmo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VLMo: التدريب المسبق الموحّد للرؤية واللغة مع مزيج من الخبراء حسب الوسائط | مستندات | HyperAI