PHMOSpell: التصحيح الإملائي للصينية بقيادة المعرفة الصوتية والشكلية

يُعدّ التدقيق الإملائي الصيني (CSC) مهمة صعبة نظرًا للخصائص المعقدة للحروف الصينية. تُظهر الإحصائيات أن معظم الأخطاء الإملائية في اللغة الصينية تنتمي إلى فئة الأخطاء الصوتية أو البصرية. ومع ذلك، فإن الطرق السابقة نادراً ما تُستخدم المعرفة الصوتية والشكلية الخاصة بالحروف الصينية، أو تعتمد بشكل كبير على مصادر خارجية لتمثيل تشابهها. ولحل هذه المشكلات، نقترح نموذجًا جديدًا قابلاً للتدريب من البداية إلى النهاية يُسمى PHMOSpell، والذي يعزز أداء التدقيق الإملائي باستخدام معلومات متعددة الأوجه. وبشكل خاص، نستخلص تمثيلات البينين (Pinyin) وتمثيلات الرموز (Glyph) للحروف الصينية من وسيلتي الصوت والرؤية على التوالي، ثم ندمجها في نموذج لغوي مُدرّب مسبقًا باستخدام آلية توجيه تكيفية مصممة بدقة. ولتأكيد فعالية النموذج، أجرينا تجارب شاملة وتجارب تحليلية (أبروتيش). وتكشف النتائج التجريبية على ثلاث معايير مشتركة أن نموذجنا يتفوق باستمرار على النماذج السابقة الأفضل في مجالها.