WebShaper: توليد البيانات بشكل وكيل عبر تشكيل البحث عن المعلومات

مع ظهور الوكلاء المدعومين بمحركات اللغة الكبيرة (LLM)، شهدت الذكاء الاصطناعي ثورة كبيرة من خلال تمكين حلول المهام المعقدة والمتعددة الاحتمالات عبر قدرات البحث عن المعلومات عبر الإنترنت (IS). إن ندرة بيانات التدريب ذات الجودة العالية قد عرقلت تطوير وكلاء البحث عن المعلومات. تعتمد الطرق الحالية عادةً على منهجية تعتمد على المعلومات، حيث يتم أولاً جمع بيانات الإنترنت، ثم إنشاء أسئلة بناءً على الاسترجاع. ومع ذلك، قد يؤدي هذا إلى عدم توافق بين بنية المعلومات وبنية الاستدلال، بين السؤال والإجابة. لتعزيز ذلك، نقترح إطارًا لتصنيع بيانات IS يسمى "WebShaper" لبناء مجموعة بيانات. يقوم WebShaper بتصنيع مهام IS بشكل منهجي من خلال نظرية المجموعات (Set Theory). ويعتبر مفهوم "الهياكل المعرفية" (Knowledge Projections، KP) هو المفتاح الرئيسي في هذا التصنيع، حيث يتيح التحكم الدقيق في بنية الاستدلال من خلال تكوينات العمليات الخاصة بـ KP. أثناء تصنيع البيانات، نبدأ بإنشاء مهام أساسية، ثم نقوم بعملية توسيع متعددة الخطوات. في كل خطوة، يقوم "المُوسِّع" (Expander) الوكيلي بتوسيع السؤال الرسمي الحالي ليصبح أكثر تعقيدًا باستخدام أدوات الاسترجاع والتحقق بناءً على منهجيتنا المُصاغة. قمنا بتدريب نموذجنا على مجموعة البيانات المُصنعة. ونتائج التجارب تُظهر أن WebShaper يحقق أداءً متقدمًا بين الوكلاء المفتوحة المصدر في مهام البحث عن المعلومات على معايير GAIA وWebWalkerQA.