HyperAIHyperAI
منذ 2 أشهر

استعادة العلامات الصوتية باستخدام BERT مع تحليل اللغة التشيكية

Jakub Náplava; Milan Straka; Jana Straková
استعادة العلامات الصوتية باستخدام BERT مع تحليل اللغة التشيكية
الملخص

نقترح معمارية جديدة لاستعادة الحركات تعتمد على التضمينات السياقية، وهي BERT (بيرت)، ونقيم أدائها على 12 لغة تحتوي على حركات. بالإضافة إلى ذلك، نقوم بتحليل الأخطاء بشكل مفصل على اللغة التشيكية، وهي لغة غنية بالمorphology (التشكل) وتحتوي على درجة عالية من الحركات. يجدر الذكر أننا قمنا بتوثيق جميع التوقعات الخاطئة يدويًا، مما أظهر أن حوالي 44% منها ليست أخطاء بالفعل، بل إما نسخ محتملة (19%) أو تصحيحات نظامية للبيانات الخاطئة (25%). أخيرًا، نصنف الأخطاء الحقيقية بشكل مفصل. لقد أطلقنا الكود في https://github.com/ufal/bert-diacritics-restoration.

استعادة العلامات الصوتية باستخدام BERT مع تحليل اللغة التشيكية | أحدث الأوراق البحثية | HyperAI