التحويل النصي إلى SQL في العالم الحقيقي: مجموعة بيانات طبيعية النشوء مبنية على بيانات Stack Exchange

تعتبر معظم مجموعات البيانات المتاحة لتحليل المعنى، والتي تتكون من أزواج من العبارات الطبيعية والأشكال المنطقية، قد جُمعت بشكل حصري لأغراض تدريب وتقدير أنظمة فهم اللغة الطبيعية. وبسبب ذلك، لا تحتوي هذه المجموعات على الغنى والتنوع الموجود في العبارات الطبيعية التي يُستخدمها البشر عندما يسألون عن بيانات يرغبون بها أو يشعرون بالفضول تجاهها. في هذا العمل، نُعلن عن إطلاق مجموعة بيانات SEDE، التي تتضمن 12,023 زوجًا من العبارات واستعلامات SQL، تم جمعها من الاستخدام الفعلي على موقع Stack Exchange. ونُظهر أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات الواقعية التي لم تُعكس سابقًا بشكل واسع في أي مجموعة بيانات أخرى لتحليل المعنى، ونُقدّم مقياس تقييم مبني على مقارنة أجزاء من عبارات الاستعلام، وهو مقياس أكثر ملاءمة للعبارات الواقعية، ونُجري تجارب باستخدام نماذج قوية كأساس، ونُظهر فجوة كبيرة في الأداء عند استخدام SEDE مقارنةً بباقي المجموعات الشائعة.