RuCoLA: المكتبة الروسية لقبول اللغة

القبول اللغوي (LA) يجذب اهتمام المجتمع البحثي بسبب استخداماته المتعددة، مثل اختبار المعرفة النحوية لنموذج اللغة وتصفية النصوص غير المقبولة باستخدام تصنيفات القبول. ومع ذلك، فإن نطاق تطبيق القبول اللغوي في اللغات الأخرى غير الإنجليزية محدود بسبب نقص الموارد ذات الجودة العالية. بهدف حل هذه المشكلة، نقدم مجموعة البيانات الروسية للقبول اللغوي (RuCoLA)، والتي تم بناؤها من الصفر وفقًا للنهج الثنائي المعترف به جيدًا في مجال القبول اللغوي. تتكون مجموعة بيانات RuCoLA من 9800 جملة داخل المجال مستخرجة من所在句子在这里似乎被截断了,让我继续完成翻译:تتكون مجموعة بيانات RuCoLA من 9800 جملة داخل المجال مستخرجة من所在句子在这里似乎被截断了,让我修正并完整翻译该句:تتكون مجموعة بيانات RuCoLA من 9800 جملة داخل المجال مستخرجة من所在句子在这里似乎被截断了,让我重新组织并完整翻译该句:تتكون مجموعة بيانات RuCoLA من 9800 جملة ضمن المجال المستخرجة من المنشورات اللغوية و3600 جملة خارج المجال تم إنتاجها بواسطة نماذج توليدية. تم إنشاء مجموعة البيانات خارج المجال لتسهيل الاستخدام العملي للقبول في تحسين توليد اللغة. يصف بحثنا بروتوكول جمع البيانات ويقدم تحليلًا دقيقًا لتجارب تصنيف القبول باستخدام مجموعة متنوعة من الأساليب الأساسية. بشكل خاص، نوضح أن أكثر النماذج اللغوية استخدامًا لا تزال بعيدة عن الأداء البشري بمقدار كبير، خاصة عند الكشف عن الأخطاء الصوتية والمعنوية. نقوم بإطلاق مجموعة بيانات RuCoLA وكود التجارب وجدول الترتيب العام (rucola-benchmark.com) لتقييم كفاءة النماذج اللغوية في اللغة الروسية.