Command Palette
Search for a command to run...
نهاية التفكيك اليدوي: نحو نماذج لغوية نهائية حقيقية
نهاية التفكيك اليدوي: نحو نماذج لغوية نهائية حقيقية
Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang
الملخص
يُعدّ مصطلح "من الطرف إلى الطرف" (end-to-end) المُستخدم لوصف النماذج الكبيرة للغة (LLMs) مصطلحًا مضلّلًا. ففي الممارسة، تعتمد هذه النماذج على عملية فك تشفير غير قابلة للاشتقاق، تتطلب ضبطًا يدويًا مُرهقًا لمعامِلات فائقة مثل "درجة الحرارة" (temperature) و"القيمة العُليا (top-p)". تقدّم هذه الورقة معمولًا جديدًا يُسمّى AutoDeco، يُمكّن من توليد نتائج فعلاً "من الطرف إلى الطرف" من خلال تعلُّم النموذج لضبط استراتيجيته الخاصة في فك التشفير. نُعدّل المُعمول القياسي (Transformer) بإضافة "رؤوس خفيفة الوزن" (lightweight heads)، تُقدّر، في كل خطوة، قيمًا محدّثة ومتغيرة حسب السياق لـ"درجة الحرارة" و"القيمة العُليا" (top-p) جنبًا إلى جنب مع احتمالات التوقيع التالي (next-token logits). يحوّل هذا النهج عملية فك التشفير إلى عملية مُعَمَّمة (Parametric) ومتعدّدة المستويات (Token-level)، ما يمكّن النموذج من تنظيم عيّنات توليد النص داخليًا ضمن عملية تمرير أمامي واحدة. من خلال تجارب مكثفة على ثمانية معايير (benchmarks)، نُظهر أن AutoDeco لا يفوق بوضوح الاستراتيجيات الافتراضية لفك التشفير، بل يُحقّق أداءً مماثلًا لنموذج مُعدّل مثالي (oracle-tuned) ناتج عن "استغلال مجموعة الاختبار" (hacking the test set) – أي الحد الأقصى العملي لأي أسلوب ثابت. وبشكل حاسم، كشفنا عن قدرة مُتَوَلِّدة لضبط فك التشفير وفق تعليمات: فهذا النموذج يتعلّم تفسير أوامر باللغة الطبيعية (مثل: "أنتج بقلة عشوائية") وينسق توقعاته لـ"درجة الحرارة" و"القيمة العُليا" على مستوى كل ترميز (token-by-token)، ممّا يفتح باب نموذج جديد لاستراتيجيات فك تشفير قابلة للاتّباع والتفاعل مع النماذج الكبيرة للغة.