HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG: تعلّم مرئي-لغوي فعّال وكفؤ من خلال روابط تخطّي عبر الوسائط

الملخص

أصبحت النماذج الأساسية المُدرّبة على نطاق واسع ظاهرة متزايدة في بناء أنظمة الذكاء الاصطناعي (AI)، والتي يمكن تكييفها بسرعة لعدد واسع من المهام اللاحقة. يقدّم هذا البحث نموذج mPLUG، وهو نموذج جديد للغة والرؤية يهدف إلى الفهم والتكوين عبر الوسائط المتعددة. تعاني معظم النماذج المُدرّبة مسبقًا من مشكلات تتعلق بفعالية الحوسبة المنخفضة، وانعدام التوازن في المعلومات الناتج عن التسلسل البصري الطويل في عملية التماثل عبر الوسائط. لحل هذه المشكلات، يقدّم mPLUG معمارية فعّالة وفعالة من حيث الحوسبة للغة والرؤية، تشمل روابط عرضية مبتكرة عبر الوسائط، تُنشئ مسارات مباشرة بين الطبقات، وتتجاوز عددًا معينًا من الطبقات لتفادي عملية الانتباه الذاتي الكامل الطويلة الأمد على الجانب البصري. تم تدريب mPLUG بشكل كامل (end-to-end) على أزواج كبيرة من الصور والنصوص، باستخدام أهداف تمييزية وإنشائية في آنٍ واحد. وحقّق mPLUG نتائج متميزة على مجموعة واسعة من المهام اللاحقة للغة والرؤية، مثل توليد عناوين الصور، واسترجاع الصور والنصوص، والتموضع البصري، والإجابة على الأسئلة البصرية. كما أظهر mPLUG قدرة قوية على التحويل الصفرية (zero-shot transferability) عند نقله مباشرة إلى عدة مهام متعددة عبر الفيديو واللغة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp