HyperAIHyperAI

Command Palette

Search for a command to run...

MMRL: التعلم التمثيلي متعدد الوسائط للنماذج البصرية-اللغوية

Yuncheng Guo Xiaodong Gu

الملخص

أصبحت النماذج الكبيرة المُدرَّبة مسبقًا للرؤية واللغة (VLMs) ضرورية لتعلم النقل عبر مهام متنوعة. ومع ذلك، فإن تكييف هذه النماذج باستخدام بيانات قليلة محدودة غالبًا ما يؤدي إلى التعلُّم الزائد (overfitting)، مما يقلل من أدائها على المهام الجديدة. لمعالجة هذه المشكلة، نقترح إطارًا جديدًا لتعلم التمثيل متعدد الوسائط (MMRL) يُقدّم فضاء تمثيلي مشترك قابل للتعلُّم وعَديم الاعتماد على الوسيلة (modality-agnostic). يقوم MMRL بتحويل رموز المساحة إلى رموز تمثيلية نصية وصورية، مما يُسهِّل تفاعلات متعددة الوسائط بشكل أكثر فعالية. على عكس النهج السابقة التي تُركِّز فقط على تحسين خصائص رمز الفئة، يدمج MMRL رموز التمثيل في الطبقات العليا من المُشفِّرات — حيث تكون السمات المحددة للمجموعة أكثر بروزًا — مع الحفاظ على المعرفة العامة في الطبقات الدنيا. أثناء التدريب، يتم تحسين كل من خصائص التمثيل وخصائص الفئة، مع تطبيق طبقة تحوير قابلة للتدريب على رموز التمثيل، في حين تبقى طبقة التحويل الخاصة برمز الفئة ثابتة (frozen) للحفاظ على المعرفة المُدرَّبة مسبقًا. علاوة على ذلك، يُضاف حدٌ تنظيمي لمحاذاة خصائص الفئة مع خصائص النص مع الخصائص الصفرية (zero-shot) المستمدة من نموذج VLM الثابت، وبالتالي حماية قدرة النموذج على التعميم. في مرحلة الاستنتاج، يُطبَّق استراتيجية فصل (decoupling)، حيث تُستخدم كلاً من خصائص التمثيل وخصائص الفئة للصفوف الأساسية، بينما تُستخدم فقط خصائص الفئة — التي تحتفظ بمعرفة أكثر عامة — للوظائف الجديدة. أظهرت تجارب واسعة النطاق على 15 مجموعة بيانات أن MMRL يتفوّق على أحدث الطرق، ويحقق توازنًا متوازنًا بين التكيُّف المخصص للمهمة والقدرة على التعميم. يمكن الوصول إلى الكود عبر الرابط: https://github.com/yunncheng/MMRL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp