منذ 6 أشهر

الملخص

من البحث المهني إلى التخطيط اليومي، تُعد العديد من المهام عُقدة بسبب الحاجة إلى البحث الواسع النطاق عن المعلومات، وهو ما يُعد أكثر تكرارًا من كونه معقدًا من الناحية المعرفية. ومع التطور السريع لنماذج اللغة الكبيرة (LLMs)، أصبحت الوكلاء الآليون المدعومون بهذه النماذج حلًا واعدًا يُحرّر البشر من هذه المهام المملة. ومع ذلك، لا تزال قدرة هذه الوكلاء على أداء عمليات جمع "السياق الواسع" بشكل موثوق وشاملة دون تقييم كافٍ، نظرًا لغياب معايير ملائمة لهذا الغرض. ولسد هذه الفجوة، نقدّم "WideSearch"، معيارًا جديدًا صُمّم خصيصًا لتقييم موثوقية الوكلاء في مهام جمع البيانات الواسعة النطاق. يتكوّن هذا المعيار من 200 سؤالًا تم اختيارها يدويًا (100 باللغة الإنجليزية، و100 باللغة الصينية) من أكثر من 15 مجالًا متنوعًا، ومستندًا إلى استعلامات حقيقية من المستخدمين. تتطلب كل مهمة من المهام جمع معلومات كمية كبيرة وذاتية بسيطة، يمكن التحقق من صحتها بشكل موضوعي وفردي، ثم تنظيمها في مخرجات منظمة جيدًا. ويضمن نموذج مراقبة جودة صارم على خمس مراحل صعوبة المهام وشموليتها وقابلية التحقق منها. قمنا بتقييم أكثر من 10 أنظمة بحث وكيلاً حديثة، تشمل أنظمة وكيلاً واحدًا، وأنظمة متعددة الوكلاء، وأنظمة تجارية نهائية. وقد حققت معظم الأنظمة معدلات نجاح إجمالية تقارب 0%، بينما وصل أفضل أداء إلى 5% فقط. ومع ذلك، عند توفر وقت كافٍ، يمكن تحقيق معدل نجاح يقارب 100% من خلال التحقق المتقاطع من قبل عدة مُختبرين بشريين. تُظهر هذه النتائج أن الوكلاء الحالية في مجال البحث تعاني من عيوب جوهرية في جمع المعلومات على نطاق واسع، مما يُبرز مجالات حاسمة تحتاج إلى تطوير وبحث مستقبلي مكثف في مجال البحث الوكيلي. وقد تم إتاحة بياناتنا، وآلية التقييم، ونتائج المعيار للجمهور عبر الرابط: https://widesearch-seed.github.io/

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

WideSearch: تقييم الوكيل في البحث الواسع عن المعلومات

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

WideSearch: تقييم الوكيل في البحث الواسع عن المعلومات

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

WideSearch: تقييم الوكيل في البحث الواسع عن المعلومات

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang

Ryan Wong Jiawei Wang Junjie Zhao Li Chen Yan Gao Long Zhang Xuan Zhou Zuo Wang Kai Xiang Ge Zhang