HyperAIHyperAI

Command Palette

Search for a command to run...

AgentFly: تحسين النماذج الوكيلة ذات النماذج الكبيرة دون تحسين النماذج الكبيرة نفسها

الملخص

في هذا البحث، نقدّم نموذجًا تعليميًا جديدًا للوكلاء القائمين على النماذج اللغوية الكبيرة (LLM) التكيفية، والذي يُلغِي الحاجة إلى التخصيص الدقيق (fine-tuning) للنماذج اللغوية الكبيرة الكامنة وراءه. تُعدّ الطرق الحالية غالبًا إما صارمة، تعتمد على سير عمل انعكاسي ثابت ومُعدّ مسبقًا، أو مكلفة من الناحية الحسابية، حيث تتطلب تحديثات بالمشتقة (gradient updates) لمعاملات نموذج LLM. في المقابل، يتيح لنا هذا النهج التكيف المستمر بتكاليف منخفضة من خلال تعلّم التقييم عبر الإنترنت القائم على الذاكرة. نُصِف هذا النموذج كعملية اتخاذ قرارات ماركوفية مُعززة بالذاكرة (M-MDP)، مزودة بسياسة اختيار حالة قائمة على الشبكة العصبية لتوجيه قرارات الإجراء. تُخزَّن التجارب السابقة في ذاكرة حدثية (episodic memory)، إما قابلة للتفاضل أو غير بارامترية. يتم تحديث السياسة باستمرار بناءً على التغذية الراجعة من البيئة من خلال آلية إعادة كتابة الذاكرة، في حين يتم تحقيق تحسين السياسة عبر قراءة ذاكرة فعّالة (استرجاع). قمنا بتطبيق نموذج الوكيل هذا في سياق البحث العميق، وسمّيناه AgentFly، والذي حقق المركز الأول في مجموعة التحقق من GAIA (87.88% Pass@3) و79.40% في مجموعة الاختبار. كما بلغ أداءه 66.6% في مؤشر F1 و80.4% في مؤشر PM على مجموعة بيانات DeepResearcher، متفوّقًا على أفضل الطرق القائمة على التدريب، مع إضافة ذاكرة قائمة على الحالة ما بين 4.7% إلى 9.6% من النقاط المطلقة في المهام التي لا تنتمي إلى التوزيع التدريبي. يقدّم هذا النهج مسارًا قابلاً للتوسع وفعالًا لتطوير وكلاء LLM شموليين قادرين على التعلّم المستمر والفعّال في الزمن الفعلي دون الحاجة إلى تحديثات بالمشتقة، ما يسهم في تطوير التعلّم الآلي نحو اكتساب المهارات المفتوحة النهاية وسيناريوهات البحث العميق. يمكن الاطلاع على الكود المصدر عبر الرابط التالي: https://github.com/Agent-on-the-Fly/AgentFly.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
AgentFly: تحسين النماذج الوكيلة ذات النماذج الكبيرة دون تحسين النماذج الكبيرة نفسها | مستندات | HyperAI