Command Palette
Search for a command to run...
Soheil Zibakhsh Mohammad Samragh Kumari Nishu Lauren Hannah Arnav Kundu Minsik Cho

الملخص
يُحسَّن جودة الإخراج الناتج من النماذج اللغوية الكبيرة (LLMs) غالبًا من خلال استخدام طرق تكبير على مستوى التسلسل أثناء عملية الاستدلال (مثل طريقة السلسلة من التفكير). نقدّم إطارًا جديدًا يُسمّى "التكبير الزائد المتوازٍ"، وهو إطار مكمل يُحسّن جودة التنبؤ على مستوى الرموز (tokens). يقوم التكبير الزائد المتوازٍ بحساب وتجميع عدة اقتراحات صحيحة لرمز واحد من النموذج. نُطبّق هذا المفهوم في نماذج المزيج من الخبراء (MoE)، ونُطلق على هذه النسخة اسم "قائمة الخبراء" (RoE). وRoE هي خوارزمية استدلال لا تتطلب تدريبًا، وتُحوّل نموذج MoE واحدًا إلى مجموعة ديناميكية من نماذج MoE. وتُضفي RoE عشوائية مُحدَّدة على آلية توجيه الخبراء، مما يُمكّنها من اختيار عدة خبراء متنوعة لكل رمز، ثم تجميع مخرجات هذه الخبراء للحصول على نتيجة نهائية أكثر دقة. وللتغلب على التكلفة الحسابية، نقدّم استراتيجية تجميع فعّالة وآلية مخصصة لتخزين ذاكرة التخزين المؤقت للقيم (KV-caching)، تقلل إلى أدنى حد من الحمل الحسابي والذاكرة المستهلكة. على سبيل المثال، تُمكّن RoE نموذج MoE بحجم 7 مليار من التماثل في الأداء مع نموذج MoE بحجم 10.5 مليار، مع استخدام 30% أقل من الحوسبة أثناء الاستدلال. وتُحقّق هذه المكاسب دون أي تعديل أو تدريب إضافي على معاملات النموذج.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.