WideSearch: تقييم الوكيل في البحث الواسع عن المعلومات

من البحث المهني إلى التخطيط اليومي، تُعد العديد من المهام عُقدة بسبب الحاجة إلى البحث الواسع النطاق عن المعلومات، وهو ما يُعد أكثر تكرارًا من كونه معقدًا من الناحية المعرفية. ومع التطور السريع لنماذج اللغة الكبيرة (LLMs)، أصبحت الوكلاء الآليون المدعومون بهذه النماذج حلًا واعدًا يُحرّر البشر من هذه المهام المملة. ومع ذلك، لا تزال قدرة هذه الوكلاء على أداء عمليات جمع "السياق الواسع" بشكل موثوق وشاملة دون تقييم كافٍ، نظرًا لغياب معايير ملائمة لهذا الغرض. ولسد هذه الفجوة، نقدّم "WideSearch"، معيارًا جديدًا صُمّم خصيصًا لتقييم موثوقية الوكلاء في مهام جمع البيانات الواسعة النطاق. يتكوّن هذا المعيار من 200 سؤالًا تم اختيارها يدويًا (100 باللغة الإنجليزية، و100 باللغة الصينية) من أكثر من 15 مجالًا متنوعًا، ومستندًا إلى استعلامات حقيقية من المستخدمين. تتطلب كل مهمة من المهام جمع معلومات كمية كبيرة وذاتية بسيطة، يمكن التحقق من صحتها بشكل موضوعي وفردي، ثم تنظيمها في مخرجات منظمة جيدًا. ويضمن نموذج مراقبة جودة صارم على خمس مراحل صعوبة المهام وشموليتها وقابلية التحقق منها. قمنا بتقييم أكثر من 10 أنظمة بحث وكيلاً حديثة، تشمل أنظمة وكيلاً واحدًا، وأنظمة متعددة الوكلاء، وأنظمة تجارية نهائية. وقد حققت معظم الأنظمة معدلات نجاح إجمالية تقارب 0%، بينما وصل أفضل أداء إلى 5% فقط. ومع ذلك، عند توفر وقت كافٍ، يمكن تحقيق معدل نجاح يقارب 100% من خلال التحقق المتقاطع من قبل عدة مُختبرين بشريين. تُظهر هذه النتائج أن الوكلاء الحالية في مجال البحث تعاني من عيوب جوهرية في جمع المعلومات على نطاق واسع، مما يُبرز مجالات حاسمة تحتاج إلى تطوير وبحث مستقبلي مكثف في مجال البحث الوكيلي. وقد تم إتاحة بياناتنا، وآلية التقييم، ونتائج المعيار للجمهور عبر الرابط: https://widesearch-seed.github.io/