التعلم المعزز بالبحث الذاتي

نستعرض إمكانية استخدام النماذج اللغوية الكبيرة (LLMs) كمحاكيات فعّالة للمهام البحثية العاملة في التعلم المعزز (RL)، بهدف تقليل الاعتماد على التفاعل المكلف مع محركات البحث الخارجية. ولتحقيق ذلك، نقوم أولاً بقياس القدرة الداخلية على البحث لدى النماذج اللغوية الكبيرة من خلال التوجيه المهيكل والعينة المتكررة، وهو ما نسميه "البحث الذاتي" (Self-Search). تُظهر النتائج أن النماذج اللغوية الكبيرة تُظهر سلوكًا قويًا في التوسع بالنسبة لميزانية الاستنتاج، وتُحقّق أداءً عاليًا في معايير إجابة الأسئلة، بما في ذلك المهمة الصعبة "BrowseComp". استنادًا إلى هذه الملاحظات، نقدّم نموذج "التعلم المعزز بالبحث الذاتي" (Self-Search RL أو SSRL)، الذي يُعزز قدرة النماذج اللغوية الكبيرة على "البحث الذاتي" من خلال مكافآت تعتمد على التنسيق والقواعد. يمكّن SSRL النماذج من تحسين معرفتها بشكل تكراري داخليًا، دون الحاجة إلى الوصول إلى أدوات خارجية. تُظهر التقييمات التجريبية أن النماذج المدربة باستخدام SSRL توفر بيئة فعّالة من حيث التكلفة ومستقرة لتدريب التعلم المعزز القائم على البحث، وتقلل الاعتماد على محركات البحث الخارجية، وتسهّل التحويل الفعّال من البيئة المحاكاة إلى الواقع الحقيقي. نستخلص النتائج التالية: 1) تمتلك النماذج اللغوية الكبيرة معرفة بالعالم يمكن استخلاصها بكفاءة لتحقيق أداء عالٍ؛ 2) يُظهر SSRL إمكانية الاستفادة من المعرفة الداخلية لتقليل ظاهرة التصوّر الخاطئ (hallucination)؛ 3) تتكامل النماذج المدربة باستخدام SSRL بشكل سلس مع محركات البحث الخارجية دون حاجة إلى جهد إضافي. تُبرز نتائجنا الإمكانات الكبيرة التي تتمتع بها النماذج اللغوية الكبيرة في دعم تدريب الوكلاء في التعلم المعزز على نطاق أوسع.