HyperAIHyperAI
منذ شهر واحد

نموذج تسلسلي متتالي للقراءة الشفوية للصينية المندارين

Ya Zhao; Rui Xu; Mingli Song
نموذج تسلسلي متتالي للقراءة الشفوية للصينية المندارين
الملخص

القراءة من الشفاه تهدف إلى فك شفرة النصوص من حركة فم المتكلم. في السنوات الأخيرة، أحرزت طرق القراءة من الشفاه تقدمًا كبيرًا في اللغة الإنجليزية، سواء على مستوى الكلمات أو الجمل. ومع ذلك، تختلف اللغة الصينية المندرنية عن الإنجليزية، فهي لغة تعتمد على الأصوات النغمة (tones) لتمييز المعنى اللفظي أو النحوي، مما يزيد بشكل كبير من الغموض في مهمة القراءة من الشفاه. في هذا البحث، نقترح نموذج سلسلة متتابعة للقراءة من الشفاه باللغة الصينية المندرنية (CSSMCM)، والذي يقوم بنمذجة الأصوات النغمية صراحة عند التنبؤ بالجمل. يتم نمذجة الأصوات النغمية بناءً على المعلومات البصرية والهيكل النحوي، وتستخدم هذه الأصوات مع المعلومات البصرية والهيكل النحوي للتنبؤ بالجمل. لتقدير أداء CSSMCM، تم جمع وإصدار مجموعة بيانات تسمى CMLR (Chinese Mandarin Lip Reading) تتكون من أكثر من 100,000 جملة طبيعية من موقع شبكة التلفزيون الصينية. عند تدريب CSSMCM على مجموعة بيانات CMLR، يتفوق النموذج المقترح على أداء أفضل الإطارات الحالية للقراءة من الشفاه، مما يؤكد فعالية نمذجة الأصوات النغمية صراحة في القراءة من الشفاه باللغة الصينية المندرنية.

نموذج تسلسلي متتالي للقراءة الشفوية للصينية المندارين | أحدث الأوراق البحثية | HyperAI