HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المعزز بالبحث الذاتي

الملخص

نستعرض إمكانية استخدام النماذج اللغوية الكبيرة (LLMs) كمحاكيات فعّالة للمهام البحثية العاملة في التعلم المعزز (RL)، بهدف تقليل الاعتماد على التفاعل المكلف مع محركات البحث الخارجية. ولتحقيق ذلك، نقوم أولاً بقياس القدرة الداخلية على البحث لدى النماذج اللغوية الكبيرة من خلال التوجيه المهيكل والعينة المتكررة، وهو ما نسميه "البحث الذاتي" (Self-Search). تُظهر النتائج أن النماذج اللغوية الكبيرة تُظهر سلوكًا قويًا في التوسع بالنسبة لميزانية الاستنتاج، وتُحقّق أداءً عاليًا في معايير إجابة الأسئلة، بما في ذلك المهمة الصعبة "BrowseComp". استنادًا إلى هذه الملاحظات، نقدّم نموذج "التعلم المعزز بالبحث الذاتي" (Self-Search RL أو SSRL)، الذي يُعزز قدرة النماذج اللغوية الكبيرة على "البحث الذاتي" من خلال مكافآت تعتمد على التنسيق والقواعد. يمكّن SSRL النماذج من تحسين معرفتها بشكل تكراري داخليًا، دون الحاجة إلى الوصول إلى أدوات خارجية. تُظهر التقييمات التجريبية أن النماذج المدربة باستخدام SSRL توفر بيئة فعّالة من حيث التكلفة ومستقرة لتدريب التعلم المعزز القائم على البحث، وتقلل الاعتماد على محركات البحث الخارجية، وتسهّل التحويل الفعّال من البيئة المحاكاة إلى الواقع الحقيقي. نستخلص النتائج التالية: 1) تمتلك النماذج اللغوية الكبيرة معرفة بالعالم يمكن استخلاصها بكفاءة لتحقيق أداء عالٍ؛ 2) يُظهر SSRL إمكانية الاستفادة من المعرفة الداخلية لتقليل ظاهرة التصوّر الخاطئ (hallucination)؛ 3) تتكامل النماذج المدربة باستخدام SSRL بشكل سلس مع محركات البحث الخارجية دون حاجة إلى جهد إضافي. تُبرز نتائجنا الإمكانات الكبيرة التي تتمتع بها النماذج اللغوية الكبيرة في دعم تدريب الوكلاء في التعلم المعزز على نطاق أوسع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المعزز بالبحث الذاتي | مستندات | HyperAI