HyperAIHyperAI
منذ 15 أيام

ReST يلتقي بـ ReAct: تحسين ذاتي لوكيل LLM الاستنتاجي متعدد الخطوات

Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
ReST يلتقي بـ ReAct: تحسين ذاتي لوكيل LLM الاستنتاجي متعدد الخطوات
الملخص

الإجابة على الأسئلة المعقدة بلغة طبيعية تتطلب غالبًا استنتاجًا متعدد الخطوات ودمج معلومات خارجية. وقد جمعت عدة أنظمة استرجاع المعرفة مع نموذج لغة كبير (LLM) للإجابة على مثل هذه الأسئلة. ومع ذلك، تعاني هذه الأنظمة من حالات فشل مختلفة، ولا يمكننا تدريبها مباشرة بطريقة نهائية (end-to-end) لتصحيح هذه الأخطاء، نظرًا لأن التفاعل مع المعرفة الخارجية غير قابِل للتفاضل (non-differentiable). لمعالجة هذه النواقص، نعرّف وكيلًا من نوع ReAct يعتمد على نموذج لغة كبير، يتمتع بقدرة على الاستدلال والتفاعل مع المعرفة الخارجية. ونُحسّن هذا الوكيل لاحقًا من خلال طريقة شبيهة بـ ReST، تقوم على التدريب التكراري على المسارات السابقة، باستخدام تعلم التدعيم بحزمة متزايدة (growing-batch reinforcement learning) مع ملاحظات ذكية اصطناعية (AI feedback) لتحقيق تحسين ذاتي مستمر وتحفيز ذاتي (self-distillation). وببدء من نموذج كبير مُحفّز، وبعد مجرد تكرارين للخوارزمية، نتمكن من إنتاج نموذج صغير مُعدّل دقيقًا يحقق أداءً مماثلًا في معايير صعبة للإجابة على الأسئلة المركبة، مع عدد معايير أقل بنحو مرتين (أقل بمرتين من القيمة المعيارية).

ReST يلتقي بـ ReAct: تحسين ذاتي لوكيل LLM الاستنتاجي متعدد الخطوات | أحدث الأوراق البحثية | HyperAI