HyperAIHyperAI
منذ 16 أيام

التحويل النصي إلى SQL في العالم الحقيقي: مجموعة بيانات طبيعية النشوء مبنية على بيانات Stack Exchange

Moshe Hazoom, Vibhor Malik, Ben Bogin
التحويل النصي إلى SQL في العالم الحقيقي: مجموعة بيانات طبيعية النشوء مبنية على بيانات Stack Exchange
الملخص

تعتبر معظم مجموعات البيانات المتاحة لتحليل المعنى، والتي تتكون من أزواج من العبارات الطبيعية والأشكال المنطقية، قد جُمعت بشكل حصري لأغراض تدريب وتقدير أنظمة فهم اللغة الطبيعية. وبسبب ذلك، لا تحتوي هذه المجموعات على الغنى والتنوع الموجود في العبارات الطبيعية التي يُستخدمها البشر عندما يسألون عن بيانات يرغبون بها أو يشعرون بالفضول تجاهها. في هذا العمل، نُعلن عن إطلاق مجموعة بيانات SEDE، التي تتضمن 12,023 زوجًا من العبارات واستعلامات SQL، تم جمعها من الاستخدام الفعلي على موقع Stack Exchange. ونُظهر أن هذه الأزواج تحتوي على مجموعة متنوعة من التحديات الواقعية التي لم تُعكس سابقًا بشكل واسع في أي مجموعة بيانات أخرى لتحليل المعنى، ونُقدّم مقياس تقييم مبني على مقارنة أجزاء من عبارات الاستعلام، وهو مقياس أكثر ملاءمة للعبارات الواقعية، ونُجري تجارب باستخدام نماذج قوية كأساس، ونُظهر فجوة كبيرة في الأداء عند استخدام SEDE مقارنةً بباقي المجموعات الشائعة.