قراءة، الاستماع، والرؤية: استخدام المعلومات متعددة الوسائط يساعد في تصحيح الأخطاء الإملائية باللغة الصينية

التحقق من الإملاء الصيني (CSC) يهدف إلى اكتشاف وإصلاح الأحرف الخاطئة في النصوص المُنتجة من قبل المستخدمين باللغة الصينية. معظم أخطاء الإملاء الصينية تتعلق باستخدام الأحرف التي تتشابه مع الحروف الصحيحة دلالياً أو صوتياً أو شكلياً. لاحظت المحاولات السابقة هذه الظاهرة وأجرت محاولات لاستخدام هذا التشابه في مهمة التصحيح. ومع ذلك، فإن هذه الأساليب تعتمد إما على الاستدلالات أو مجموعات الالتباس التي تم إنشاؤها يدوياً للتنبؤ بالحرف الصحيح. في هذا البحث، نقترح نظام التحقق من الإملاء الصيني الذي يُطلق عليه اسم ReaLiSe، وذلك من خلال استغلال المعلومات متعددة الوسائط للأحرف الصينية مباشرة. يعمل نموذج ReaLiSe على التعامل مع مهمة CSC من خلال: (1) التقاط المعلومات الدلالية والصوتية والشكلية للأحرف المدخلة، و(2) خلط المعلومات في هذه الوسائط بشكل اختياري للتنبؤ بالمخرج الصحيح. أظهرت التجارب على مقاييس SIGHAN أن النموذج المقترح يتفوق على خطوط الأساس القوية بهامش كبير.