تقطير وكيل نموذج اللغة الكبير إلى نماذج صغيرة باستخدام أدوات الاسترجاع والبرمجة

النماذج اللغوية الكبيرة (LLMs) تتفوق في مهام التفكير المعقدة ولكنها تظل باهظة الثمن من الناحية الحسابية، مما يحد من نشرها العملي. لمعالجة هذا الأمر، ركزت الأعمال الحديثة على تقطير قدرات التفكير إلى نماذج لغوية أصغر (sLMs) باستخدام سلاسل الأفكار (CoT) من النماذج اللغوية الكبيرة المعلمة. ومع ذلك، فإن هذه الطريقة تعاني في السيناريوهات التي تتطلب معرفة واقعية نادرة أو حساب دقيق، حيث تخيل النماذج الصغيرة غالبًا بسبب قدرتها المحدودة. في هذا العمل، نقترح تقنية تقطير الوكلاء، وهي إطار عمل لنقل ليس فقط قدرات التفكير ولكن أيضًا السلوك الكامل لحل المهام من الوكلاء المستندة إلى النماذج اللغوية الكبيرة إلى النماذج اللغوية الصغيرة مع أدوات الاسترجاع والبرمجة. نحسن تقنية تقطير الوكلاء على محورين متكاملين: (1) نقدم طريقة تحفيزية تسمى البادئة الأولى للأفكار لتعزيز جودة المسارات التي تم إنشاؤها بواسطة المعلم؛ و(2) نقترح إنشاء أفعال ذاتية الاتساق لتحسين متانة الوكلاء الصغار أثناء الاختبار. نقيم طرقنا على ثماني مهام تفكير عبر مجالات الوقائع والرياضيات، بما في ذلك التعميم داخل المجال وخارجه. تظهر نتائجنا أن النماذج اللغوية الصغيرة بحجم 0.5 مليار، 1.5 مليار، 3 مليارات معلمة يمكن أن تحقق أداءً تنافسيًا مع النماذج الأكبر بحجم 1.5 مليار، 3 مليارات، 7 مليارات معلمة التي تم ضبطها الدقيق باستخدام تقطير سلسلة الأفكار (CoT)، مما يدل على إمكانات تقنية تقطير الوكلاء في بناء وكالات عملية صغيرة تستفيد من الأدوات. شفرتنا المصدر متاحة على https://github.com/Nardien/agent-distillation.