HyperAIHyperAI

Command Palette

Search for a command to run...

Mind2Web 2: تقييم البحث الوكيل بوكيل كقاضٍ

Boyu Gou Zanming Huang Yuting Ning Yu Gu Michael Lin Weijian Qi Andrei Kopanev Botao Yu et al

الملخص

البحث الوكيل مثل أنظمة البحث العميق، حيث تقوم النماذج اللغوية الكبيرة بالتصفح المستقل للويب، ودمج المعلومات، وإرجاع إجابات شاملة مدعومة بالمراجع، يمثل تحولاً كبيراً في كيفية تفاعل المستخدمين مع المعلومات على نطاق الويب. بينما يعد هذا التحول واعداً بزيادة الكفاءة وتخفيف العبء المعرفي، فإن التعقيد المتزايد والمرونة غير المحددة للبحث الوكيل قد تجاوزت مقاييس ومنهجيات التقييم الحالية، والتي تعتمد بشكل كبير على أفق بحث قصير وإجابات ثابتة. في هذه الورقة البحثية، نقدم Mind2Web 2 (مقياس 2)، وهو معيار يتكون من 130 مهمة واقعية وجودتها عالية وأفقها طويل تتطلب تصفحاً فعلياً للويب ودمجاً مكثفاً للمعلومات، وقد تم بناؤه باستخدام أكثر من 1,000 ساعة من جهد البشر. لمواجهة تحدي تقييم الإجابات المتغيرة مع الزمن والمعقدة، نقترح إطار عمل جديد يُعرف بـ "الوكيل كقاضٍ". طريقتنا تقوم ببناء وكلاء قضاة خاصين بالمهمة بناءً على تصميم معياري شجري لتقييم صحة الإجابة ونسبتها إلى المصادر بشكل آلي. نقوم بتقييم شامل لنظامي البحث الوكيل الرائدين وعددهما تسعة والأداء البشري، بالإضافة إلى تحليل خطأ مفصل لاستخلاص رؤى لتطوير المستقبل. يمكن لأفضل نظام أداء، وهو نظام OpenAI Deep Research (البحث العميق من OpenAI)، تحقيق ما بين 50٪ إلى 70٪ من الأداء البشري بينما يستغرق نصف الوقت، مما يظهر إمكانات كبيرة. مجتمعةً، توفر Mind2Web 2 (مقياس 2) أساساً دقيقاً لتطوير وتقييم الجيل القادم من أنظمة البحث الوكيل.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Mind2Web 2: تقييم البحث الوكيل بوكيل كقاضٍ | مستندات | HyperAI