HyperAIHyperAI
منذ 2 أشهر

التعرف على الكيانات الاسمية لفيروس كورونا (COVID-19) في اللغة الفيتنامية

Thinh Hung Truong; Mai Hoang Dao; Dat Quoc Nguyen
التعرف على الكيانات الاسمية لفيروس كورونا (COVID-19) في اللغة الفيتنامية
الملخص

الوباء الحالي لفيروس كورونا المستجد (COVID-19) أدى إلى إنشاء العديد من المجموعات اللغوية التي تسهل البحث في معالجة اللغة الطبيعية (NLP) والتطبيقات اللاحقة للمساعدة في مكافحة الوباء. ومع ذلك، فإن معظم هذه المجموعات اللغوية مخصصة للإنجليزية فقط. نظرًا لأن الوباء هو مشكلة عالمية، فمن الجدير بالاهتمام إنشاء مجموعات بيانات تتعلق بفيروس كورونا المستجد لللغات الأخرى غير الإنجليزية. في هذا البحث، نقدم أول مجموعة بيانات يدوية التسمية محددة المجال لفيروس كورونا المستجد باللغة الفيتنامية. بشكل خاص، تم تسمية مجموعتنا البيانات لأجل مهمة التعرف على الكيانات المسماة (NER) مع أنواع كيانات جديدة تم تعريفها والتي يمكن استخدامها في الأوبئة المستقبلية. تحتوي مجموعتنا البيانات أيضًا على أكبر عدد من الكيانات مقارنة بمجموعات البيانات الحالية للتعرف على الكيانات المسماة باللغة الفيتنامية. قمنا بإجراء تجارب عملية باستخدام أسس قوية على مجموعتنا البيانات، ووجدنا أن: تقسيم الكلمات الفيتنامية تلقائيًا يساعد في تحسين نتائج التعرف على الكيانات المسماة وأن أفضل الأداء يتم الحصول عليه عن طريق ضبط النماذج اللغوية المدربة مسبقًا حيث أنتج النموذج الأحادي اللغة PhoBERT للفيتنامية (Nguyen و Nguyen، 2020) نتائج أعلى من النموذج متعدد اللغات XLM-R (Conneau وآخرون، 2020). نقوم بإطلاق مجموعتنا البيانات بشكل عام عبر الرابط: https://github.com/VinAIResearch/PhoNER_COVID19

التعرف على الكيانات الاسمية لفيروس كورونا (COVID-19) في اللغة الفيتنامية | أحدث الأوراق البحثية | HyperAI