CuMo: توسعة النماذج اللغوية متعددة الوسائط باستخدام خليط الخبراء المتجدد معاً

التطورات الحديثة في نماذج اللغات الكبيرة متعددة الوسائط (LLMs) ركزت بشكل أساسي على التوسع من خلال زيادة بيانات الأزواج النص-صورة وتحسين نماذج LLM لتعزيز أداء المهام المتعددة الوسائط. ومع ذلك، فإن هذه الأساليب التوسعية تكون باهظة الثمن من الناحية الحسابية وتتجاهل أهمية تحسين قدرات النموذج من الجانب البصري. مستوحاةً من التطبيقات الناجحة لمزيج الخبراء (MoE) في نماذج LLM، والتي تحسن قابلية توسع النموذج أثناء التدريب مع الحفاظ على تكاليف الاستدلال مشابهة لتلك الخاصة بالنماذج الأصغر، نقترح CuMo. يدمج CuMo كتل مزيج الخبراء ذات البوابة النادرة العناصر الأولى (Top-K) التي تم إعادة استخدامها بشكل مشترك في كل من مُشفِّر الرؤية والمتصل MLP، مما يعزز نماذج LLM المتعددة الوسائط بأقل عدد إضافي من المعلمات المفعلة أثناء الاستدلال. يقوم CuMo أولاً بتدريب كتل MLP ثم يقوم بتثبيت كل خبير في كتلة MoE من كتلة MLP المدربة مسبقًا خلال مرحلة ضبط التعليمات البصرية. يتم استخدام الخسائر المساعدة لضمان تحميل متوازن للخبراء. يتفوق CuMo على أفضل نماذج LLM المتعددة الوسائط حاليًا في مجموعة متنوعة من مقاييس VQA وتنفيذ التعليمات البصرية باستخدام نماذج ضمن كل فئة حجمية، وفي الوقت نفسه يتم تدريبه حصريًا على مجموعات بيانات ذات مصدر مفتوح. يمكن الوصول إلى شفرة CuMo وأوزان النموذج ذات المصدر المفتوح عبر الرابط: https://github.com/SHI-Labs/CuMo.