Mind2Web 2: تقييم البحث الوكيل بوكيل كقاضٍ

البحث الوكيل مثل أنظمة البحث العميق، حيث تقوم النماذج اللغوية الكبيرة بالتصفح المستقل للويب، ودمج المعلومات، وإرجاع إجابات شاملة مدعومة بالمراجع، يمثل تحولاً كبيراً في كيفية تفاعل المستخدمين مع المعلومات على نطاق الويب. بينما يعد هذا التحول واعداً بزيادة الكفاءة وتخفيف العبء المعرفي، فإن التعقيد المتزايد والمرونة غير المحددة للبحث الوكيل قد تجاوزت مقاييس ومنهجيات التقييم الحالية، والتي تعتمد بشكل كبير على أفق بحث قصير وإجابات ثابتة. في هذه الورقة البحثية، نقدم Mind2Web 2 (مقياس 2)، وهو معيار يتكون من 130 مهمة واقعية وجودتها عالية وأفقها طويل تتطلب تصفحاً فعلياً للويب ودمجاً مكثفاً للمعلومات، وقد تم بناؤه باستخدام أكثر من 1,000 ساعة من جهد البشر. لمواجهة تحدي تقييم الإجابات المتغيرة مع الزمن والمعقدة، نقترح إطار عمل جديد يُعرف بـ "الوكيل كقاضٍ". طريقتنا تقوم ببناء وكلاء قضاة خاصين بالمهمة بناءً على تصميم معياري شجري لتقييم صحة الإجابة ونسبتها إلى المصادر بشكل آلي. نقوم بتقييم شامل لنظامي البحث الوكيل الرائدين وعددهما تسعة والأداء البشري، بالإضافة إلى تحليل خطأ مفصل لاستخلاص رؤى لتطوير المستقبل. يمكن لأفضل نظام أداء، وهو نظام OpenAI Deep Research (البحث العميق من OpenAI)، تحقيق ما بين 50٪ إلى 70٪ من الأداء البشري بينما يستغرق نصف الوقت، مما يظهر إمكانات كبيرة. مجتمعةً، توفر Mind2Web 2 (مقياس 2) أساساً دقيقاً لتطوير وتقييم الجيل القادم من أنظمة البحث الوكيل.