HyperAI

DeepResearch Bench: معيار شامل لمُحفزات البحث العميق

Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao
تاريخ النشر: 6/17/2025
DeepResearch Bench: معيار شامل لمُحفزات البحث العميق
الملخص

الوكلاء الباحثون العميقون هي فئة بارزة من الوكلاء المستندة إلى النماذج اللغوية الكبيرة (LLM). من خلال توجيه استكشاف الويب متعدد الخطوات بشكل مستقل، واسترجاع محدد، وتركيب من الدرجة العليا، يقومون بتحويل كميات هائلة من المعلومات عبر الإنترنت إلى تقارير غنية بالمراجع ومعدة على مستوى المحلل - مما يقلص ساعات البحث المكتبية اليدوية إلى دقائق. ومع ذلك، لا يزال هناك نقص في وجود مقاييس شاملة لتقييم قدرات هذه الوكلاء بشكل منهجي. لسد هذا الفجوة، نقدم مقاييس DeepResearch Bench، والتي تتكون من 100 مهمة بحثية على مستوى الدكتوراه، كل منها تم إعدادها بدقة بواسطة خبراء في مجالات مختلفة تبلغ 22 مجالاً.تقييم الوكلاء الباحثين العميقين معقد ومكلف بطبيعته. ولذلك، نقترح طريقتين جديدتين تحققان توافقًا قويًا مع الحكم البشري. الأولى هي طريقة تعتمد على المراجع ومعايير متكيفة لتقييم جودة التقارير البحثية المولدة. الإطار الثاني يتم تقديمه لتقييم قدرات استرجاع المعلومات وجمعها للوكيل الباحث العميق عن طريق تقييم عدد الاستشهادات الفعال والدقة الشاملة للمراجع. لقد أصدرنا مصدر DeepResearch Bench وكافة المكونات الرئيسية لهذه الإطارات بشكل مفتوح المصدر في https://github.com/Ayanami0730/deep_research_bench لتسريع تطوير الوكلاء المستندة إلى النماذج اللغوية الكبيرة العملية.