Command Palette
Search for a command to run...
الدكتور صفر: وكلاء بحث ذاتي التطور دون بيانات تدريب
الدكتور صفر: وكلاء بحث ذاتي التطور دون بيانات تدريب
Zhenrui Yue Kartikeya Upasani Xianjun Yang Suyu Ge Shaoliang Nie Yuning Mao Zhe Liu Dong Wang
Abstract
مع صعوبة الحصول على بيانات عالية الجودة بشكل متزايد، ظهرت منهجية "التطور الذاتي دون بيانات" كمنهَج واعد. تتيح هذه الطريقة للنماذج اللغوية الكبيرة (LLMs) توليد المشكلات المعقدة وحلها بشكل تلقائي، مما يُحسّن قدراتها على الاستدلال. ومع ذلك، تواجه الوكلاء متعددي الدورات في عملية البحث صعوبات في التطور الذاتي دون بيانات، نظرًا لافتقار الأسئلة إلى التنوّع، بالإضافة إلى الحاجة إلى موارد حاسوبية كبيرة لإجراء التفكير متعدد الخطوات واستخدام الأدوات. في هذا العمل، نقدّم "د. زرو" (Dr. Zero)، وهي إطار يمكّن الوكلاء من التطور الذاتي بكفاءة دون الحاجة إلى أي بيانات تدريب. وتحديدًا، نصمم دورة تغذية راجعة للتطور الذاتي، حيث يُولِّد "مُقدِّم المهام" أسئلة متنوعة لتدريب "مُحلِّل المهام" الذي يُنشَأ من النموذج الأساسي نفسه. مع تطوّر مُحلِّل المهام، يُشجِّع هذا التطور مُقدِّم المهام على إنتاج مهام متزايدة الصعوبة ولكنها ما زالت قابلة للحل، مما يُشكِّل منهجًا تدريسيًا تلقائيًا لتحسين كلا الوكيلين. ولتعزيز كفاءة التدريب، نقدّم أيضًا طريقة "التحسين النسبي المُجمَّع حسب عدد الخطوات" (HRPO). تُجمِّع هذه الطريقة الأسئلة ذات البنية المتشابهة لبناء معايير على مستوى المجموعة، مما يقلل بشكل فعّال من عبء أخذ العينات في تقييم صعوبة كل سؤال وقابليته للحل بشكل فردي. ونتيجة لذلك، تقلل HRPO بشكل كبير من متطلبات الحوسبة الخاصة بتدريب مُحلِّل المهام دون التأثير على الأداء أو الاستقرار. وتوحي نتائج التجارب الواسعة بأن "د. زرو" بدون بيانات تُساوي أو تتفوّق على الوكلاء المتخصصين بالكامل باستخدام التدريب المراقب، مما يثبت أن قدرات الاستدلال المعقدة والبحثية يمكن أن تنشأ بالكامل من خلال التطور الذاتي فقط.