مجموعة بيانات الاستعلام باللغة الطبيعية للبيانات شبه المهيكلة SSRB
التاريخ
رابط الورقة
الترخيص
Apache 2.0
SSRB هي مجموعة بيانات مرجعية واسعة النطاق للاستعلام باللغة الطبيعية عن البيانات شبه المهيكلة، وقد أصدرها معهد هاربين للتكنولوجيا (شنتشن) عام 2025 بالتعاون مع جامعة هونغ كونغ للفنون التطبيقية وجامعة تسينغهوا ومؤسسات أخرى. وتشمل الأبحاث ذات الصلة... SSRB: الاستعلام المباشر باللغة الطبيعية عن البيانات شبه المهيكلة الضخمة غير المتجانسةتم اختيارها لمجموعات بيانات ومعايير NeurIPS 2025، والتي تهدف إلى تقييم وتعزيز قدرة النموذج على استرجاع البيانات شبه المهيكلة في ظل ظروف استعلام اللغة الطبيعية المعقدة.
تحتوي هذه المجموعة من البيانات على ما يقارب 14 مليون عنصر بيانات شبه مهيكلة و8485 استعلامًا اختباريًا، تغطي ستة مجالات مختلفة وتتضمن 99 نمطًا مختلفًا. يُلبي كل استعلام في هذه المجموعة متطلبات استرجاع البيانات شبه المهيكلة. تجمع شروط الاستعلام عادةً بين قيود مطابقة الحقول الدقيقة ومتطلبات المطابقة الدلالية التقريبية، وقد تتضمن حقولًا متعددة واستدلالًا ضمنيًا. تُستخدم هذه المجموعة لتقييم قدرة النموذج بشكل منهجي على استرجاع وفهم البيانات شبه المهيكلة في ظل شروط استعلام معقدة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.