عنكبوت: مجموعة بيانات كبيرة مصنفة من قبل البشر لتحليل المعنى المعقد ومهام تحويل النص إلى SQL عبر المجالات

نقدم مجموعة بيانات Spider، وهي مجموعة كبيرة ومعقدة ومتعددة المجالات للتحليل الدلالي (semantic parsing) وتحويل النص إلى استعلامات SQL، وقد تم توثيقها من قبل 11 طالب جامعي. تتكون هذه المجموعة من 10,181 سؤالًا و5,693 استعلام SQL فريد ومعقد على 200 قاعدة بيانات متعددة الجداول، وتغطي 138 مجالًا مختلفًا. نحدد مهمة جديدة ومعقدة ومتعددة المجالات في التحليل الدلالي وتحويل النص إلى SQL، حيث تظهر استعلامات SQL المختلفة والقواعد البيانات في مجموعات التدريب والاختبار. بهذه الطريقة، تتطلب المهمة من النموذج أن يكون لديه قدرة تعميم جيدة لكلٍ من الاستعلامات SQL الجديدة ومخططات القواعد البيانات الجديدة. تتميز Spider عن معظم المهام السابقة في التحليل الدالي لأن جميعها تستعمل قاعدة بيانات واحدة والبرامج نفسها تمامًا في مجموعتي التدريب والاختبار. لقد أجرينا تجارب باستخدام العديد من النماذج الرائدة وأفضل نموذج حقق دقة مطابقة دقيقة بنسبة 12.4% فقط في إعداد تقسيم القاعدة البيانات. هذا يدل على أن Spider تمثل تحديًا قويًا للأبحاث المستقبلية. يمكن الوصول إلى مجموعتنا البيانات والمهمة بشكل عام عبر الرابط: https://yale-lily.github.io/spider