HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج تسلسلي متتالي للقراءة الشفوية للصينية المندارين

Ya Zhao Rui Xu Mingli Song

الملخص

القراءة من الشفاه تهدف إلى فك شفرة النصوص من حركة فم المتكلم. في السنوات الأخيرة، أحرزت طرق القراءة من الشفاه تقدمًا كبيرًا في اللغة الإنجليزية، سواء على مستوى الكلمات أو الجمل. ومع ذلك، تختلف اللغة الصينية المندرنية عن الإنجليزية، فهي لغة تعتمد على الأصوات النغمة (tones) لتمييز المعنى اللفظي أو النحوي، مما يزيد بشكل كبير من الغموض في مهمة القراءة من الشفاه. في هذا البحث، نقترح نموذج سلسلة متتابعة للقراءة من الشفاه باللغة الصينية المندرنية (CSSMCM)، والذي يقوم بنمذجة الأصوات النغمية صراحة عند التنبؤ بالجمل. يتم نمذجة الأصوات النغمية بناءً على المعلومات البصرية والهيكل النحوي، وتستخدم هذه الأصوات مع المعلومات البصرية والهيكل النحوي للتنبؤ بالجمل. لتقدير أداء CSSMCM، تم جمع وإصدار مجموعة بيانات تسمى CMLR (Chinese Mandarin Lip Reading) تتكون من أكثر من 100,000 جملة طبيعية من موقع شبكة التلفزيون الصينية. عند تدريب CSSMCM على مجموعة بيانات CMLR، يتفوق النموذج المقترح على أداء أفضل الإطارات الحالية للقراءة من الشفاه، مما يؤكد فعالية نمذجة الأصوات النغمية صراحة في القراءة من الشفاه باللغة الصينية المندرنية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نموذج تسلسلي متتالي للقراءة الشفوية للصينية المندارين | مستندات | HyperAI