استخلاص نموذج لغوي كبير ذاتيّ التقييد من نوع مغلق على سياسة محددة
Tianzhu Ye Li Dong Zewen Chi Xun Wu Shaohan Huang Furu Wei

الملخص
تُنشئ التَّبْعِيَةِ المُحْدَّدَةِ (Black-box distillation) نماذج لغوية كبيرة (LLMs) طالبة من خلال التعلُّم من مخرجات النصوص فقط لنموذج مُعلِّم خاص (proprietory teacher model)، دون الوصول إلى الـ logits أو المُعامِلات الداخلية له. في هذا العمل، نقدِّم تَبْعِيَةً مُتَنَوِّعَةً تَوَقُّعِيَّةً (Generative Adversarial Distillation - GAD)، التي تُمكِّن من التَّبْعِيَةِ المُتَوَقِّعَةِ (on-policy) والذاتيةِ (black-box). تُصوِّر GAD النموذج اللغوي الكبير الطالب كـ "مُولِّد" (generator)، وتدرب "مُميِّزًا" (discriminator) على التمييز بين استجاباته واستجابات النموذج المُعلِّم، مما يُشكِّل لعبة ماكسيمِنْمِنْ (minimax game). يعمل المُميِّز كنموذج مكافأة مُتَوَقِّعٍ (on-policy reward model) يتطور بالتوازي مع الطالب، ويوفِّر تغذية راجعة مستقرة وقابلة للتكيف. أظهرت النتائج التجريبية أن GAD تتفوَّق بشكل مستمر على تقنية التَّبْعِيَةِ المعرفية على مستوى التسلسل (sequence-level knowledge distillation) الشائعة الاستخدام. وبشكل خاص، أصبح النموذج الطالب Qwen2.5-14B-Instruct، المدرَّب باستخدام GAD، مُComparableًّا لنموذج مُعلِّمه GPT-5-Chat في التقييم التلقائي باستخدام منصة LMSYS-Chat. تُثبت هذه النتائج أن GAD تمثل منهجًا واعدًا وفعالًا للتَّبْعِيَةِ المُحْدَّدَةِ للنماذج اللغوية الكبيرة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.