HyperAIHyperAI
منذ 2 أشهر

Omni-SMoLA: تعزيز نماذج متعددة الوسائط العامة باستخدام خليط ناعم من خبراء ذات رتبة منخفضة

Wu, Jialin ; Hu, Xia ; Wang, Yaqing ; Pang, Bo ; Soricut, Radu
Omni-SMoLA: تعزيز نماذج متعددة الوسائط العامة باستخدام خليط ناعم من خبراء ذات رتبة منخفضة
الملخص

تظهر النماذج المتعددة الأوضاع الكبيرة (LMMs) أداءً ملحوظًا في العديد من المهام. ومع ذلك، غالبًا ما تعاني النماذج العامة من تدهور الأداء عند ضبطها على مجموعة كبيرة من المهام. تقترح البحوث الحديثة أن هياكل خليط الخبراء (MoE) مفيدة لضبط التعليمات، ولكن بالنسبة للنماذج المتعددة الأوضاع ذات حجم المعلمات حوالي O(50-100B)، فإن التكلفة الباهظة لنسخ وتخزين نماذج الخبراء تحد بشدة من عدد الخبراء الذين يمكن استخدامهم. نقترح Omni-SMoLA، وهي هيكل يستخدم نهج خليط الخبراء الناعم (Soft MoE) لخلط (بشكل ناعم) العديد من الخبراء ذوي الرتب المنخفضة المتعددي الأوضاع، ويتجنب إدخال عدد كبير من المعلمات الجديدة مقارنة بالهياكل التقليدية لخليط الخبراء. الفكرة الأساسية هنا هي أن النموذج الكبير يوفر الهيكل الأساسي، بينما يتعلم الخبراء الخفيفة المختلفة المعرفة المتخصصة بشكل متكرر، سواء لكل وضعية أو بشكل متعدد الأوضاع. تثبت التجارب الواسعة أن نهج SMoLA يساعد في تحسين الأداء العام عبر نطاق واسع من المهام الجenerative الرؤية واللغة، مما يؤدي إلى تحقيق أداء عام جديد يتفوق غالبًا أو يساوي أداء النماذج المتخصصة الفردية LMMs، بالإضافة إلى تحقيق أداء متخصص جديد هو الأفضل حتى الآن (SoTA).

Omni-SMoLA: تعزيز نماذج متعددة الوسائط العامة باستخدام خليط ناعم من خبراء ذات رتبة منخفضة | أحدث الأوراق البحثية | HyperAI