HyperAIHyperAI

Command Palette

Search for a command to run...

استخلاص نموذج لغوي كبير ذاتيّ التقييد من نوع مغلق على سياسة محددة

Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

الملخص

تُنشئ التَّبْعِيَةِ المُحْدَّدَةِ (Black-box distillation) نماذج لغوية كبيرة (LLMs) طالبة من خلال التعلُّم من مخرجات النصوص فقط لنموذج مُعلِّم خاص (proprietory teacher model)، دون الوصول إلى الـ logits أو المُعامِلات الداخلية له. في هذا العمل، نقدِّم تَبْعِيَةً مُتَنَوِّعَةً تَوَقُّعِيَّةً (Generative Adversarial Distillation - GAD)، التي تُمكِّن من التَّبْعِيَةِ المُتَوَقِّعَةِ (on-policy) والذاتيةِ (black-box). تُصوِّر GAD النموذج اللغوي الكبير الطالب كـ "مُولِّد" (generator)، وتدرب "مُميِّزًا" (discriminator) على التمييز بين استجاباته واستجابات النموذج المُعلِّم، مما يُشكِّل لعبة ماكسيمِنْمِنْ (minimax game). يعمل المُميِّز كنموذج مكافأة مُتَوَقِّعٍ (on-policy reward model) يتطور بالتوازي مع الطالب، ويوفِّر تغذية راجعة مستقرة وقابلة للتكيف. أظهرت النتائج التجريبية أن GAD تتفوَّق بشكل مستمر على تقنية التَّبْعِيَةِ المعرفية على مستوى التسلسل (sequence-level knowledge distillation) الشائعة الاستخدام. وبشكل خاص، أصبح النموذج الطالب Qwen2.5-14B-Instruct، المدرَّب باستخدام GAD، مُComparableًّا لنموذج مُعلِّمه GPT-5-Chat في التقييم التلقائي باستخدام منصة LMSYS-Chat. تُثبت هذه النتائج أن GAD تمثل منهجًا واعدًا وفعالًا للتَّبْعِيَةِ المُحْدَّدَةِ للنماذج اللغوية الكبيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استخلاص نموذج لغوي كبير ذاتيّ التقييد من نوع مغلق على سياسة محددة | مستندات | HyperAI