HyperAIHyperAI

Command Palette

Search for a command to run...

تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

التعرف على الكلام من حركة الشفتين الصامتة، والمعروفة باسم القراءة من الشفتين، هي مهمة صعبة بسبب 1) نقص المعلومات الذاتي في حركة الشفتين لتمثيل الكلام بشكل كامل، و2) وجود الكلمات المتشابهة في الحركات الشفوية (الهوموفونات) التي لها حركات شفوية مماثلة ولكن نطق مختلف. في هذا البحث، نحاول تخفيف التحديين المذكورين في القراءة من الشفتين من خلال اقتراح ذاكرة بصرية-صوتية متعددة الرؤوس (MVM). أولاً، يتم تدريب MVM باستخدام مجموعات بيانات بصرية-صوتية وتذكر التمثيلات الصوتية من خلال نمذجة العلاقات المتبادلة بين التمثيلات البصرية-الصوتية المتزامنة. في مرحلة الاستدلال، يمكن للإدخال البصري وحده استخراج التمثيل الصوتي المحفوظ من الذاكرة عن طريق فحص العلاقات المتبادلة التي تم تعلمها. وبالتالي، يمكن للنموذج الخاص بالقراءة من الشفتين تعويض النقص في المعلومات البصرية بالتمثيلات الصوتية المستخرجة. ثانياً، تتكون MVM من ذواكر مفاتيح متعددة الرؤوس لحفظ الخصائص البصرية وذاكرة قيمة واحدة لحفظ المعرفة الصوتية، وهي مصممة لتمييز الهوموفونات. باستخدام ذواكر المفاتيح المتعددة الرؤوس، تستخرج MVM خصائص صوتية محتملة من الذاكرة، مما يسمح للنموذج الخاص بالقراءة من الشفتين بأخذ إمكانية النطق الذي يمكن أن يمثله الإدخال الحركي للشفتين بعين الاعتبار. ويمكن اعتبار هذا أيضًا تنفيذًا واضحًا للتخصيص واحد إلى العديد (viseme-to-phoneme). بالإضافة إلى ذلك، يتم استخدام MVM على مستويات زمنية متعددة لأخذ السياق بعين الاعتبار عند استرجاع الذاكرة وتمييز الهوموفونات. تؤكد النتائج التجريبية الواسعة فعالية الطريقة المقترحة في القراءة من الشفتين وفي تمييز الهوموفونات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه | مستندات | HyperAI