HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات تشيكية لتصنيف الموضوعية عبر اللغات

Pavel Pribáň Josef Steinberger

الملخص

في هذا البحث، نقدم مجموعة بيانات جديدة للتشخيص الذاتي باللغة التشيكية تتكون من 10 آلاف جملة موضوعية وذاتية تم تسميتها يدويًا من مراجعات وأوصاف الأفلام. الدافع الرئيسي لنا هو توفير مجموعة بيانات موثوقة يمكن استخدامها مع المجموعات البيانات الإنجليزية القائمة كمعيار لاختبار قدرة النماذج متعددة اللغات المدربة مسبقًا على نقل المعرفة بين اللغة التشيكية والإنجليزية وبالعكس. تم تسمية المجموعة البيانات بواسطة مصححين اثنين، حيث بلغت نسبة الاتفاق بينهما 0.83 حسب معامل كوهين كابا (Cohen's κ). حسب أفضل علم لدينا، هذه هي أول مجموعة بيانات للتشخيص الذاتي باللغة التشيكية. كما أنشأنا مجموعة بيانات إضافية تتكون من 200 ألف جملة تم تصنيفها تلقائيًا. كلتا المجموعتين متاحتان بحرية للأغراض البحثية. علاوة على ذلك، قمنا بضبط خمسة نماذج مدربة مسبقًا مشابهة لنموذج BERT لوضع أساس أحادي اللغة للمجموعة البيانات الجديدة، وقد حققنا دقة بنسبة 93.56%. قمنا بضبط النماذج على المجموعة البيانات الإنجليزية القائمة والتي حصلنا منها على نتائج تعادل أفضل النتائج الحالية في هذا المجال. أخيرًا، أجرينا تصنيفًا ذاقيًّا بين اللغتين التشيكية والإنجليزية للتحقق من صلاحية مجموعتنا البيانات كمعيار ذاقي (zero-shot cross-lingual benchmark). نقارن ونناقش النتائج الذاقية والأحادية اللغة وقدرة النماذج متعددة اللغات على نقل المعرفة بين اللغات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp