منذ 3 أشهر

الملخص

يُسرّع التفكير التخميني (Speculative Decoding - SD) عملية استنتاج النماذج اللغوية الكبيرة من خلال استخدام نموذج تجريبي صغير لتوليد التنبؤات، والتي تُتحقق لاحقًا بواسطة نموذج هدف أكبر. ويعتمد أداء SD بشكل أساسي على التوافق بين النموذجين، والذي يُعزز عادةً من خلال تقنية تTransfer المعرفة (Knowledge Distillation - KD). ومع ذلك، فإن الطرق التقليدية لـ KD تسعى إلى تقليل الانحراف التفاضلي (KL divergence) بين النموذج التجريبي والنموذج الهدف عبر جميع الرموز (tokens)، وهو هدف لا يتماشى مع الهدف الحقيقي لـ SD، المتمثل في تحسين معدل قبول الرموز. ونتيجة لذلك، يعاني النماذج التجربيّة غالبًا من صعوبة في امتصاص المعرفة الكاملة من النموذج الهدف بسبب قيود القدرة، مما يؤدي إلى أداء غير مثالي. ولحل هذه التحديات، نقترح طريقة جديدة تُسمى AdaSPEC، التي تدمج عملية تصفية الرموز المختارة ضمن عملية تTransfer المعرفة. تعتمد AdaSPEC على نموذج مرجعي لتحديد وتصفية الرموز التي يصعب تكييفها، مما يمكّن من تدريب نموذج تجريبي يتوافق بشكل أفضل مع النموذج الهدف على الرموز الأسهل. ويؤدي هذا النهج إلى تحسين معدل قبول الرموز بشكل عام دون التضحية بجودة التوليد. وقد قمنا بتقييم AdaSPEC على مهام متنوعة، تشمل التفكير الحسابي، والامتثال للتعليمات، والبرمجة، وتلخيص النصوص، باستخدام تكوينات نماذج بسعة 31 مليون/1.4 مليار و350 مليون/2.7 مليار رمز. وأظهرت النتائج أن AdaSPEC تتفوق باستمرار على أحدث طريقة مُعلَّمة (DistillSpec)، وتحقق معدلات قبول أعلى في جميع المهام (ما يصل إلى 15٪). ويُتاح الكود المصدر للعامة عبر الرابط: https://github.com/yuezhouhu/adaspec.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار