HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

تركيب البيانات المفتوحة للبحث العميق

Ziyi Xia Kun Luo Hongjin Qian Zheng Liu

تركيب البيانات المفتوحة للبحث العميق

الملخص

تُتوقع من النماذج اللغوية الكبيرة (LLMs) اليوم أن تتجاوز الاستفسارات الواقعية البسيطة نحو مهام بحثية عميقة (Deep Research)، تتطلب تفكيك الأسئلة إلى مسائل فرعية، وتنسيق التفكير متعدد الخطوات، ودمج الأدلة من مصادر متنوعة. نُعَرِّف مهام البحث العميق ذات الإجابات القابلة للتحقق كمشاكل رياضية متعددة التقييدات هيراركية (HCSP)، والتي تختلف جوهريًا عن صيغ مشاكل التقييدات الفردية أو متعددة الخطوات أو الصيغ المسطحة. ومع ذلك، فإن المعايير الحالية (مثل Natural Questions وHotpotQA) تفشل في التقاط هذه التعقيدات، في حين أن المجموعات الاصطناعية الحديثة غالبًا ما تُدخل استنتاجات مختصرة أو تسربًا للمعرفة أو تفتقر إلى العمق الهيكلي الكافي. ولسد هذه الفجوة، نُقدّم "InfoSeek"، إطارًا قابلاً للتوسع لإنشاء مهام بحثية عميقة معقدة. يعتمد InfoSeek على نظام وكيلين مزدوجين لبناء شجرة بحثية بشكل تكراري من صفحات ويب ضخمة، حيث يتم دمج العقد الوسطية في مسائل فرعية صالحة، ثم تحويل هذه الأشجار إلى أسئلة بلغة طبيعية تتطلب استكشاف الهرم بالكامل. كما يتيح هذا الإطار التوسع السريع، ما ينتج أكثر من 50 ألف مثال تدريبي، ومجموعة اختبار مُنتقاة، ومسارات استنتاجية تم إنشاؤها باستخدام عينة الرفض (reject sampling). أظهرت التجارب أن النماذج المدربة على InfoSeek تتفوق بشكل متسق على النماذج الأساسية القوية. فعلى معيار صعب مثل BrowseComp-Plus، تفوق النماذج ذات 3 مليار معلمة (3B LLMs)، المُحسَّنة باستخدام InfoSeek، على نماذج أكبر بكثير (32B) وأيضًا على واجهات برمجة تطبيقات تجارية خفيفة الوزن (مثل Gemini2.5-Flash)، مع تحقيق أداءً يقارب الأفضل (مثل Gemini2.5-Pro). وبفضل الحفاظ على معلومات ما فوقية مثل الخطوات الوسطية وعلامات الاسترجاع، يُمكّن InfoSeek من دعم استراتيجيات تحسين متقدمة، بما في ذلك تصميم مكافآت مركبة واستكشاف على مستوى المسار. نُقدّم كودنا ومجموعات البيانات في هذا المستودع.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تركيب البيانات المفتوحة للبحث العميق | الأوراق البحثية | HyperAI