مجموعة بيانات معيارية للتعلم المشترك قليلة اللقطات
التاريخ
الحجم
رابط النشر
العلامات
مجموعة بيانات معيار FewJoint عبارة عن مجموعة من بيانات المستخدم الحقيقي وبيانات تم إنشاؤها بواسطة خبراء من منصة iFlytek AIUI المفتوحة (بنسبة تقريبية تبلغ 3:7). تحتوي على 59 نطاقًا حقيقيًا وهي حاليًا واحدة من مجموعات بيانات المحادثة التي تحتوي على أكبر عدد من النطاقات. تتجنب مجموعة البيانات هذه إنشاء المجالات المحاكاة وهي مناسبة جدًا للعينات الصغيرة وطرق التعلم الفوقي.
وبناءً على هذه المجموعة من البيانات، نظم فريق البحث أيضًا تقييم فهم لغة المحادثة لعينة صغيرة من SMP 2020. على عكس دراسات معالجة اللغة الطبيعية السابقة التي استخدمت عينات صغيرة من مهام تصنيف النصوص البسيطة التي تم إنشاؤها بشكل مصطنع، قدم فريق البحث مهمة فهم اللغة المحادثة التي تغطي 59 مجالًا حقيقيًا. بالإضافة إلى تصنيف النص البسيط، تغطي مهمة SLU أيضًا تسمية التسلسل والتعلم المشترك متعدد المهام.تتيح هذه المهام الأكثر تقدمًا وواقعية لـ FewJoint أن تعكس بشكل أفضل صعوبة وتعقيد مهام معالجة اللغة الطبيعية في العالم الحقيقي مقارنة بمهام تصنيف النص البسيطة الموجودة.
تتمتع مجموعة بيانات FewJoint المعيارية بالميزات الرئيسية التالية:
- تحتوي على 59 نطاقًا حقيقيًا وهي إحدى مجموعات بيانات المحادثة التي تحتوي على أكبر عدد من النطاقات. يمكنه تجنب إنشاء المجالات المحاكاة وهو مناسب جدًا لتقييم العينات الصغيرة وطرق التعلم الفوقي.
- إنه يعكس صعوبة مهام معالجة اللغة الطبيعية الحقيقية ويكسر القيد المتمثل في أن معالجة اللغة الطبيعية الحالية ذات اللقطات القليلة لا يمكنها إلا تنفيذ مهام اصطناعية بسيطة مثل تصنيف النص.
- مفتوح بالكامل ويوفر معيارًا تعليميًا سهل الاستخدام في مجال البرمجة اللغوية العصبية.
- توفر منصة أدوات تعليمية داعمة لـ NLP - MetaDialog، والتي تسهل إجراء التجارب وتجريها بسرعة.
بناء مجموعة البيانات
قام فريق البحث باختيار 59 واجهة برمجة تطبيقات روبوت محادثة حقيقية على منصة iFlytek AIUI المفتوحة كمجالات بحث. تشتمل مصادر مجموعة المستخدمين بشكل أساسي على جزأين:
(1) بيانات من المستخدمين الحقيقيين للمنصة
(2) مجموعة من النصوص التي أنشأها خبراء المجال
نسبة البيانات لمصدري البيانات هي تقريبًا 3:7. بعد شرح كل قطعة من البيانات بنية المستخدم والفواصل الدلالية، قام فريق البحث بتقسيم جميع المجالات الـ 59 إلى ثلاثة أجزاء: 45 مجال تدريب، و5 مجالات تطوير، و9 مجالات اختبار. قم بإعادة هيكلة بيانات مجال الاختبار والتطوير إلى نموذج تعليمي مكون من عدة لقطات: يحتوي كل مجال على مجموعة دعم K-shot تم إنشاؤها بشكل مصطنع ومجموعة استعلام تتكون من البيانات المتبقية.