نموذج سوبر: كيف تُفْتَحُ أداء نماذج اللغة المتقدمة من خلال الحساب البسيط
نموذج سوبر: كيف تُفْتَحُ أداء نماذج اللغة المتقدمة من خلال الحساب البسيط

الملخص
أظهرت نماذج اللغة الكبيرة (LLMs) قدرات ملحوظة في مجالات متنوعة، لكن تدريبها ما زال يتطلب موارد كبيرة ووقتًا طويلاً، ما يستدعي قوة حوسبة هائلة وتنسيقًا دقيقًا لإجراءات التدريب. وقد ظهرت تقنية "مُرَقَّع النماذج" (Model Souping) – وهي ممارسة تتمثّل في متوسطة أوزان نماذج متعددة من نفس البنية المعمارية – كطريقة واعدة مُطبَّقة قبل وبعد التدريب، تُحسِّن الأداء دون الحاجة إلى إعادة تدريب مكلفة. في هذا البحث، نقدّم "مُرَقَّع خبراء الفئات" (SoCE)، وهي منهجية مبنية على مبادئ علمية لتقنية مُرَقَّع النماذج، تستخدم تكوين المعايير (benchmark composition) لتحديد النماذج المثلى، وتطبّق متوسطًا موزونًا غير متساوٍ لتعظيم الأداء. على عكس الطرق السابقة التي تعتمد على المتوسط المتساوي، يستفيد منهجنا من ملاحظة أن فئات المعايير غالبًا ما تُظهر ارتباطات متدنية بين أداء النماذج. فـ SoCE تُحدِّد النماذج "الخَبِيرَة" لكل مجموعة من الفئات ذات الارتباط الضعيف، وتحسّن أداءها من خلال متوسط موزون مُحسَّن بدلًا من الأوزان المتساوية. ونُظهر من خلال هذا البحث أن المنهج المقترح يُحسِّن الأداء والثبات عبر عدة مجالات، بما في ذلك القدرة متعددة اللغات، واستدعاء الأدوات، والرياضيات، ويحقق نتائج رائدة على لوحة التصنيف الوظيفي بجامعة بركلي (Berkeley Function Calling Leaderboard).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.