HyperAIHyperAI

Command Palette

Search for a command to run...

Omni-SMoLA: تعزيز نماذج متعددة الوسائط العامة باستخدام خليط ناعم من خبراء ذات رتبة منخفضة

Jialin Wu Xia Hu Yaqing Wang Bo Pang Radu Soricut

الملخص

تظهر النماذج المتعددة الأوضاع الكبيرة (LMMs) أداءً ملحوظًا في العديد من المهام. ومع ذلك، غالبًا ما تعاني النماذج العامة من تدهور الأداء عند ضبطها على مجموعة كبيرة من المهام. تقترح البحوث الحديثة أن هياكل خليط الخبراء (MoE) مفيدة لضبط التعليمات، ولكن بالنسبة للنماذج المتعددة الأوضاع ذات حجم المعلمات حوالي O(50-100B)، فإن التكلفة الباهظة لنسخ وتخزين نماذج الخبراء تحد بشدة من عدد الخبراء الذين يمكن استخدامهم. نقترح Omni-SMoLA، وهي هيكل يستخدم نهج خليط الخبراء الناعم (Soft MoE) لخلط (بشكل ناعم) العديد من الخبراء ذوي الرتب المنخفضة المتعددي الأوضاع، ويتجنب إدخال عدد كبير من المعلمات الجديدة مقارنة بالهياكل التقليدية لخليط الخبراء. الفكرة الأساسية هنا هي أن النموذج الكبير يوفر الهيكل الأساسي، بينما يتعلم الخبراء الخفيفة المختلفة المعرفة المتخصصة بشكل متكرر، سواء لكل وضعية أو بشكل متعدد الأوضاع. تثبت التجارب الواسعة أن نهج SMoLA يساعد في تحسين الأداء العام عبر نطاق واسع من المهام الجenerative الرؤية واللغة، مما يؤدي إلى تحقيق أداء عام جديد يتفوق غالبًا أو يساوي أداء النماذج المتخصصة الفردية LMMs، بالإضافة إلى تحقيق أداء متخصص جديد هو الأفضل حتى الآن (SoTA).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Omni-SMoLA: تعزيز نماذج متعددة الوسائط العامة باستخدام خليط ناعم من خبراء ذات رتبة منخفضة | مستندات | HyperAI