HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 6 أيام

InteractComp: تقييم وكلاء البحث باستخدام استعلامات غامضة

InteractComp: تقييم وكلاء البحث باستخدام استعلامات غامضة

الملخص

أظهرت الوكلاء اللغويون إمكانات مميزة في عمليات البحث عبر الويب واسترجاع المعلومات. ومع ذلك، فإن هذه الوكلاء تفترض أن استفسارات المستخدمين تكون كاملة وواضحة، وهو افتراض يختلف عن الواقع، حيث يبدأ المستخدمون باستفسارات غير مكتملة وتحتاج إلى توضيح من خلال التفاعل. ورغم ذلك، تفتقر معظم الوكلاء إلى آليات تفاعلية أثناء عملية البحث، كما أن المعايير الحالية لا تُقيّم هذه القدرة. ولسد هذه الفجوة، نقدّم "InteractComp"، وهو معيار مصمم لتقييم قدرة وكلاء البحث على التعرف على الغموض في الاستفسارات والتفاعل بنشاط لحله أثناء عملية البحث. واتباعًا لمبدأ "السهولة في التحقق، والتفاعل لتوضيح الغموض"، قمنا ببناء 210 استفسارات مُعدّة من قبل خبراء في 9 مجالات، باستخدام منهجية "الهدف-الإرباك" التي تُولّد غموضًا حقيقيًا يمكن حلّه فقط من خلال التفاعل. أظهر تقييم 17 نموذجًا نتائج مذهلة من الفشل: حيث بلغ أفضل نموذج دقة وحده 13.73%، بالرغم من وصوله إلى 71.50% عند توفر السياق الكامل، ما يكشف عن تحيّز مفرط في الثقة وليس نقصًا في القدرة على الاستنتاج. كما أظهر التفاعل القسري مكاسب كبيرة، ما يدل على وجود قدرات خفية لا تُنفَّذ بفعالية من خلال الاستراتيجيات الحالية. وخلال التحليل الطويل الأمد، تبيّن أن قدرة التفاعل توقفت عن التقدم على مدار 15 شهرًا، في حين ارتفع أداء البحث سبعة أضعاف، ما يُظهر وجود عيب حاسم. ونظرًا لطبيعة التغذية الراجعة الفورية المتأصلة في مهام البحث، يُعدّ "InteractComp" موردًا قيّمًا لتقييم وتدريب القدرات التفاعلية في وكلاء البحث. يُمكن الوصول إلى الكود عبر الرابط: https://github.com/FoundationAgents/InteractComp.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
InteractComp: تقييم وكلاء البحث باستخدام استعلامات غامضة | الأوراق البحثية | HyperAI