HyperAIHyperAI

Command Palette

Search for a command to run...

الدكتور صفر: وكلاء بحث ذاتي التطور دون بيانات تدريب

Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang

Abstract

مع صعوبة الحصول على بيانات عالية الجودة بشكل متزايد، ظهرت منهجية "التطور الذاتي دون بيانات" كمنهَج واعد. تتيح هذه الطريقة للنماذج اللغوية الكبيرة (LLMs) توليد المشكلات المعقدة وحلها بشكل تلقائي، مما يُحسّن قدراتها على الاستدلال. ومع ذلك، تواجه الوكلاء متعددي الدورات في عملية البحث صعوبات في التطور الذاتي دون بيانات، نظرًا لافتقار الأسئلة إلى التنوّع، بالإضافة إلى الحاجة إلى موارد حاسوبية كبيرة لإجراء التفكير متعدد الخطوات واستخدام الأدوات. في هذا العمل، نقدّم "د. زرو" (Dr. Zero)، وهي إطار يمكّن الوكلاء من التطور الذاتي بكفاءة دون الحاجة إلى أي بيانات تدريب. وتحديدًا، نصمم دورة تغذية راجعة للتطور الذاتي، حيث يُولِّد "مُقدِّم المهام" أسئلة متنوعة لتدريب "مُحلِّل المهام" الذي يُنشَأ من النموذج الأساسي نفسه. مع تطوّر مُحلِّل المهام، يُشجِّع هذا التطور مُقدِّم المهام على إنتاج مهام متزايدة الصعوبة ولكنها ما زالت قابلة للحل، مما يُشكِّل منهجًا تدريسيًا تلقائيًا لتحسين كلا الوكيلين. ولتعزيز كفاءة التدريب، نقدّم أيضًا طريقة "التحسين النسبي المُجمَّع حسب عدد الخطوات" (HRPO). تُجمِّع هذه الطريقة الأسئلة ذات البنية المتشابهة لبناء معايير على مستوى المجموعة، مما يقلل بشكل فعّال من عبء أخذ العينات في تقييم صعوبة كل سؤال وقابليته للحل بشكل فردي. ونتيجة لذلك، تقلل HRPO بشكل كبير من متطلبات الحوسبة الخاصة بتدريب مُحلِّل المهام دون التأثير على الأداء أو الاستقرار. وتوحي نتائج التجارب الواسعة بأن "د. زرو" بدون بيانات تُساوي أو تتفوّق على الوكلاء المتخصصين بالكامل باستخدام التدريب المراقب، مما يثبت أن قدرات الاستدلال المعقدة والبحثية يمكن أن تنشأ بالكامل من خلال التطور الذاتي فقط.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp