HyperAIHyperAI

Command Palette

Search for a command to run...

ReST يلتقي بـ ReAct: تحسين ذاتي لوكيل LLM الاستنتاجي متعدد الخطوات

الملخص

الإجابة على الأسئلة المعقدة بلغة طبيعية تتطلب غالبًا استنتاجًا متعدد الخطوات ودمج معلومات خارجية. وقد جمعت عدة أنظمة استرجاع المعرفة مع نموذج لغة كبير (LLM) للإجابة على مثل هذه الأسئلة. ومع ذلك، تعاني هذه الأنظمة من حالات فشل مختلفة، ولا يمكننا تدريبها مباشرة بطريقة نهائية (end-to-end) لتصحيح هذه الأخطاء، نظرًا لأن التفاعل مع المعرفة الخارجية غير قابِل للتفاضل (non-differentiable). لمعالجة هذه النواقص، نعرّف وكيلًا من نوع ReAct يعتمد على نموذج لغة كبير، يتمتع بقدرة على الاستدلال والتفاعل مع المعرفة الخارجية. ونُحسّن هذا الوكيل لاحقًا من خلال طريقة شبيهة بـ ReST، تقوم على التدريب التكراري على المسارات السابقة، باستخدام تعلم التدعيم بحزمة متزايدة (growing-batch reinforcement learning) مع ملاحظات ذكية اصطناعية (AI feedback) لتحقيق تحسين ذاتي مستمر وتحفيز ذاتي (self-distillation). وببدء من نموذج كبير مُحفّز، وبعد مجرد تكرارين للخوارزمية، نتمكن من إنتاج نموذج صغير مُعدّل دقيقًا يحقق أداءً مماثلًا في معايير صعبة للإجابة على الأسئلة المركبة، مع عدد معايير أقل بنحو مرتين (أقل بمرتين من القيمة المعيارية).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ReST يلتقي بـ ReAct: تحسين ذاتي لوكيل LLM الاستنتاجي متعدد الخطوات | مستندات | HyperAI