منذ 2 أشهر
استعادة العلامات الصوتية باستخدام BERT مع تحليل اللغة التشيكية
Jakub Náplava; Milan Straka; Jana Straková

الملخص
نقترح معمارية جديدة لاستعادة الحركات تعتمد على التضمينات السياقية، وهي BERT (بيرت)، ونقيم أدائها على 12 لغة تحتوي على حركات. بالإضافة إلى ذلك، نقوم بتحليل الأخطاء بشكل مفصل على اللغة التشيكية، وهي لغة غنية بالمorphology (التشكل) وتحتوي على درجة عالية من الحركات. يجدر الذكر أننا قمنا بتوثيق جميع التوقعات الخاطئة يدويًا، مما أظهر أن حوالي 44% منها ليست أخطاء بالفعل، بل إما نسخ محتملة (19%) أو تصحيحات نظامية للبيانات الخاطئة (25%). أخيرًا، نصنف الأخطاء الحقيقية بشكل مفصل. لقد أطلقنا الكود في https://github.com/ufal/bert-diacritics-restoration.