FireAct: نحو التدريب الدقيق للوكيل اللغوي

جاءت الجهود الحديثة بتعزيز نماذج اللغة (LMs) بالأدوات أو البيئات الخارجية، مما أدى إلى تطوير وكالات اللغة القادرة على التفكير والعمل. ومع ذلك، تعتمد معظم هذه الوكالات على تقنيات التحفيز القليلة (few-shot prompting) مع نماذج لغة جاهزة. في هذه الورقة، نستعرض ونُقدّم حجّة لاتجاه مُهمل يتمثل في تحسين نماذج اللغة (fine-tuning) للحصول على وكالات لغة. باستخدام بيئة للإجابة على الأسئلة (QA) مع واجهة برمجة تطبيقات بحث جوجل (Google search API)، نستكشف مجموعة متنوعة من النماذج الأساسية (base LMs)، وطرق التحفيز، وبيانات التدريب المُعدّلة، وأساليب الإجابة على الأسئلة، ونجد أن وكالات اللغة تتحسن بشكل مستمر بعد تحسين النموذج الأساسي (backbone LM). على سبيل المثال، يؤدي تحسين نموذج Llama2-7B باستخدام 500 مسارًا وكليًا تم إنشاؤه بواسطة GPT-4 إلى زيادة بنسبة 77٪ في أداء HotpotQA. علاوةً على ذلك، نقترح منهجية جديدة تُسمى FireAct، تُعدّ طريقة مبتكرة لتحسين نماذج اللغة باستخدام مسارات من مهام متعددة وطرق تحفيز مختلفة، ونُظهر أن توفر بيانات تدريب أكثر تنوعًا يمكن أن يُحسّن أداء الوكالات بشكل إضافي. وبالإضافة إلى نتائج أخرى تتعلق بتأثيرات التوسع، والثبات، والقدرة على التعميم، والكفاءة والتكلفة، تُرسّخ هذه الدراسة الفوائد الشاملة لتحسين نماذج اللغة لصالح الوكالات، وتقدّم مجموعة أولية من التصاميم التجريبية، والرؤى، والأسئلة المفتوحة المتعلقة بتحسين نماذج اللغة للوكالات اللغوية.