منذ 8 أشهر

الملخص

التعرف على الكلام من حركة الشفتين الصامتة، والمعروفة باسم القراءة من الشفتين، هي مهمة صعبة بسبب 1) نقص المعلومات الذاتي في حركة الشفتين لتمثيل الكلام بشكل كامل، و2) وجود الكلمات المتشابهة في الحركات الشفوية (الهوموفونات) التي لها حركات شفوية مماثلة ولكن نطق مختلف. في هذا البحث، نحاول تخفيف التحديين المذكورين في القراءة من الشفتين من خلال اقتراح ذاكرة بصرية-صوتية متعددة الرؤوس (MVM). أولاً، يتم تدريب MVM باستخدام مجموعات بيانات بصرية-صوتية وتذكر التمثيلات الصوتية من خلال نمذجة العلاقات المتبادلة بين التمثيلات البصرية-الصوتية المتزامنة. في مرحلة الاستدلال، يمكن للإدخال البصري وحده استخراج التمثيل الصوتي المحفوظ من الذاكرة عن طريق فحص العلاقات المتبادلة التي تم تعلمها. وبالتالي، يمكن للنموذج الخاص بالقراءة من الشفتين تعويض النقص في المعلومات البصرية بالتمثيلات الصوتية المستخرجة. ثانياً، تتكون MVM من ذواكر مفاتيح متعددة الرؤوس لحفظ الخصائص البصرية وذاكرة قيمة واحدة لحفظ المعرفة الصوتية، وهي مصممة لتمييز الهوموفونات. باستخدام ذواكر المفاتيح المتعددة الرؤوس، تستخرج MVM خصائص صوتية محتملة من الذاكرة، مما يسمح للنموذج الخاص بالقراءة من الشفتين بأخذ إمكانية النطق الذي يمكن أن يمثله الإدخال الحركي للشفتين بعين الاعتبار. ويمكن اعتبار هذا أيضًا تنفيذًا واضحًا للتخصيص واحد إلى العديد (viseme-to-phoneme). بالإضافة إلى ذلك، يتم استخدام MVM على مستويات زمنية متعددة لأخذ السياق بعين الاعتبار عند استرجاع الذاكرة وتمييز الهوموفونات. تؤكد النتائج التجريبية الواسعة فعالية الطريقة المقترحة في القراءة من الشفتين وفي تمييز الهوموفونات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه

Minsu Kim Jeong Hun Yeo Yong Man Ro*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters