منذ يوم واحد

AgentFly: تحسين النماذج الوكيلة ذات النماذج الكبيرة دون تحسين النماذج الكبيرة نفسها

Huichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

عرض تفاصيل الورقة البحثية View Code

AgentFly: تحسين النماذج الوكيلة ذات النماذج الكبيرة دون تحسين النماذج الكبيرة نفسها

الملخص

في هذا البحث، نقدّم نموذجًا تعليميًا جديدًا للوكلاء القائمين على النماذج اللغوية الكبيرة (LLM) التكيفية، والذي يُلغِي الحاجة إلى التخصيص الدقيق (fine-tuning) للنماذج اللغوية الكبيرة الكامنة وراءه. تُعدّ الطرق الحالية غالبًا إما صارمة، تعتمد على سير عمل انعكاسي ثابت ومُعدّ مسبقًا، أو مكلفة من الناحية الحسابية، حيث تتطلب تحديثات بالمشتقة (gradient updates) لمعاملات نموذج LLM. في المقابل، يتيح لنا هذا النهج التكيف المستمر بتكاليف منخفضة من خلال تعلّم التقييم عبر الإنترنت القائم على الذاكرة. نُصِف هذا النموذج كعملية اتخاذ قرارات ماركوفية مُعززة بالذاكرة (M-MDP)، مزودة بسياسة اختيار حالة قائمة على الشبكة العصبية لتوجيه قرارات الإجراء. تُخزَّن التجارب السابقة في ذاكرة حدثية (episodic memory)، إما قابلة للتفاضل أو غير بارامترية. يتم تحديث السياسة باستمرار بناءً على التغذية الراجعة من البيئة من خلال آلية إعادة كتابة الذاكرة، في حين يتم تحقيق تحسين السياسة عبر قراءة ذاكرة فعّالة (استرجاع). قمنا بتطبيق نموذج الوكيل هذا في سياق البحث العميق، وسمّيناه AgentFly، والذي حقق المركز الأول في مجموعة التحقق من GAIA (87.88% Pass@3) و79.40% في مجموعة الاختبار. كما بلغ أداءه 66.6% في مؤشر F1 و80.4% في مؤشر PM على مجموعة بيانات DeepResearcher، متفوّقًا على أفضل الطرق القائمة على التدريب، مع إضافة ذاكرة قائمة على الحالة ما بين 4.7% إلى 9.6% من النقاط المطلقة في المهام التي لا تنتمي إلى التوزيع التدريبي. يقدّم هذا النهج مسارًا قابلاً للتوسع وفعالًا لتطوير وكلاء LLM شموليين قادرين على التعلّم المستمر والفعّال في الزمن الفعلي دون الحاجة إلى تحديثات بالمشتقة، ما يسهم في تطوير التعلّم الآلي نحو اكتساب المهارات المفتوحة النهاية وسيناريوهات البحث العميق. يمكن الاطلاع على الكود المصدر عبر الرابط التالي: https://github.com/Agent-on-the-Fly/AgentFly.