مجموعة بيانات تشيكية لتصنيف الموضوعية عبر اللغات

في هذا البحث، نقدم مجموعة بيانات جديدة للتشخيص الذاتي باللغة التشيكية تتكون من 10 آلاف جملة موضوعية وذاتية تم تسميتها يدويًا من مراجعات وأوصاف الأفلام. الدافع الرئيسي لنا هو توفير مجموعة بيانات موثوقة يمكن استخدامها مع المجموعات البيانات الإنجليزية القائمة كمعيار لاختبار قدرة النماذج متعددة اللغات المدربة مسبقًا على نقل المعرفة بين اللغة التشيكية والإنجليزية وبالعكس. تم تسمية المجموعة البيانات بواسطة مصححين اثنين، حيث بلغت نسبة الاتفاق بينهما 0.83 حسب معامل كوهين كابا (Cohen's κ). حسب أفضل علم لدينا، هذه هي أول مجموعة بيانات للتشخيص الذاتي باللغة التشيكية. كما أنشأنا مجموعة بيانات إضافية تتكون من 200 ألف جملة تم تصنيفها تلقائيًا. كلتا المجموعتين متاحتان بحرية للأغراض البحثية. علاوة على ذلك، قمنا بضبط خمسة نماذج مدربة مسبقًا مشابهة لنموذج BERT لوضع أساس أحادي اللغة للمجموعة البيانات الجديدة، وقد حققنا دقة بنسبة 93.56%. قمنا بضبط النماذج على المجموعة البيانات الإنجليزية القائمة والتي حصلنا منها على نتائج تعادل أفضل النتائج الحالية في هذا المجال. أخيرًا، أجرينا تصنيفًا ذاقيًّا بين اللغتين التشيكية والإنجليزية للتحقق من صلاحية مجموعتنا البيانات كمعيار ذاقي (zero-shot cross-lingual benchmark). نقارن ونناقش النتائج الذاقية والأحادية اللغة وقدرة النماذج متعددة اللغات على نقل المعرفة بين اللغات.