HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSearchQA: سد الفجوة الشاملة لوكالات البحث العميق

Abstract

نُقدِّم "DeepSearchQA"، وهو معيار مكوَّن من 900 سؤال مُصمَّم لتقييم الكيانات (النماذج) في مهام البحث المركبة والصعبة التي تتطلب جمع معلومات متعددة الخطوات عبر 17 مجالًا مختلفًا. على عكس المعايير التقليدية التي تركز على استرجاع إجابة واحدة أو التحقق من صحة الحقائق على نطاق واسع، يمتاز DeepSearchQA بقاعدة بيانات من المهام الصعبة والمحسوبة بدقة، صُمِّمت خصيصًا لتقييم قدرة الكيان على تنفيذ خطط بحث معقدة لإنتاج قوائم إجابات شاملة. ويُعد هذا التحوّل في التصميم اختبارًا صريحًا لثلاثة قدرات حاسمة، لكنها ما زالت غير كافية التقييم: 1) جمع المعلومات المجزأة من مصادر متعددة بطريقة منهجية، 2) التخلص من التكرار وتحديد الهوية (Entity Resolution) لضمان الدقة، و3) القدرة على التفكير في معايير التوقف ضمن فضاء بحث مفتوح. وتُبنى كل مهمة على شكل سلسلة سببية، حيث يعتمد اكتشاف المعلومات في خطوة ما على إنجاز الخطوة السابقة بنجاح، مما يُركّز على التخطيط على المدى الطويل والاحتفاظ بالسياق. وجميع المهام مبنية على الويب المفتوح، وتملك مجموعات إجابات قابلة للتحقق الموضوعي. وخلال تقييمنا الشامل لمعظم معمليات الكيانات المتطورة حاليًا، كشفت النتائج عن قيود أداء كبيرة: حتى أقوى النماذج تواجه صعوبة في تحقيق التوازن بين الاسترجاع العالي (Recall) والدقة (Precision). ولاحظنا أنماطًا مختلفة من الفشل، تتراوح بين التوقف المبكر (استرجاع غير كافٍ) إلى سلوك التحوط، حيث يُطلق الكيانات شبكة واسعة جدًا من الإجابات ذات مستوى ثقة منخفضة بهدف رفع الاسترجاع بشكل اصطناعي. وتُبرز هذه النتائج فجوة كبيرة في تصميم الكيانات الحالية، وتُقدّم DeepSearchQA كأداة تشخيصية أساسية لدفع الأبحاث المستقبلية نحو تطوير كيانات أكثر متانة وقدرات بحث عميقة.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp