HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ يوم واحد

SSRB: استعلام لغوي طبيعي مباشر للبيانات الكبيرة المتنوعة شبه المُنظمة

SSRB: استعلام لغوي طبيعي مباشر للبيانات الكبيرة المتنوعة شبه المُنظمة

الملخص

أصبح البحث في البيانات شبه المنظمة باستخدام استفسارات باللغة الطبيعية (NL) محط اهتمام مستمر، مما يمكّن جمهورًا أوسع من الوصول بسهولة إلى المعلومات. ومع ظهور تطبيقات متعددة، مثل وكلاء نماذج لغة كبيرة (LLM) وأنظمة الاسترجاع المدعومة بالذكاء الاصطناعي (RAG)، التي تُستخدم للبحث والتفاعل مع البيانات شبه المنظمة، باتت هناك تحديان رئيسيان بارزين: (1) التباين المتزايد في المجالات وتنوع الهياكل (Schemas)، ما يجعل الحلول المخصصة حسب المجال مكلفة جدًا؛ (2) التعقيد المتنامِي للاستفسارات باللغة الطبيعية، التي تدمج بين شروط مطابقة حرفية للمجالات ومتطلبات دلالية غامضة، وغالبًا ما تتضمن عدة مجالات وحِرَفًا استدلالية غير مُعلنة. ونتيجة لذلك، أصبحت طرق الاستعلام باستخدام لغات رسمية أو البحث القائم على الكلمات المفتاحية غير كافية. في هذا العمل، نستكشف استخدام مُسترجعات عصبية (Neural Retriever) كحل موحد غير رسمي للاستعلام، من خلال فهرسة مجموعات البيانات شبه المنظمة مباشرة وفهم الاستفسارات باللغة الطبيعية. ونستخدم تقييمًا تلقائيًا مبنيًا على نماذج لغة كبيرة (LLM)، ونُنشئ معيارًا تجريبيًا واسع النطاق للبحث في البيانات شبه المنظمة (SSRB) باستخدام توليد وتصفية نماذج LLM، يحتوي على 14 مليون كائن شبه منظم من 99 هيكلًا مختلفًا تابعًا لستة مجالات، إلى جانب 8,485 استفسارًا تجريبيًا تدمج بين شروط مطابقة حرفية وشروط مطابقة غامضة. وتشير تقييماتنا المنهجية للنماذج الشهيرة في هذا المجال إلى أن النماذج الحالية المتميزة أداءً تُظهر أداءً مقبولًا، لكنها ما زالت تعاني من نقص في الفهم الدقيق لقيود المطابقة. ومع ذلك، يمكن تحسين الأداء بشكل ملحوظ من خلال تدريب مُسترجعات كثيفة (Dense Retriever) داخل المجال. نعتقد أن معيارنا SSRB يمكن أن يُعد موردًا قيّمًا للبحث المستقبلي في هذا المجال، ونأمل أن يُشجع على مزيد من الاستكشاف في مجال استرجاع البيانات شبه المنظمة باستخدام استفسارات معقدة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp