HyperAIHyperAI

Command Palette

Search for a command to run...

نمذجة متعددة الحبوب للمساحة والزمان لقراءة الشفاه

Chenhao Wang

الملخص

يهدف قراءة الشفاه إلى التعرف على محتوى الكلام من مقاطع الفيديو عبر تحليل بصري لحركات شفاه المتحدثين. تعد هذه المهمة صعبة بسبب وجود الكلمات المتشابهة في حركات الشفاه (الهوموفيمات) - الكلمات التي تتضمن حركات شفاه متطابقة أو شديدة التشابه، بالإضافة إلى الاختلافات في مظهر الشفاه وأنماط الحركة بين المتحدثين. لمعالجة هذه التحديات، نقترح نموذجًا جديدًا لقراءة الشفاه يلتقط ليس فقط الفروق الدقيقة بين الكلمات ولكن أيضًا أسلوب كل متحدث، من خلال نمذجة زمانية-مكانية متعددة المستويات للعملية النطقية. بتحديد أكثر، نقوم أولاً باستخراج خصائص دقيقة المستوى الإطاري وخصائص متوسطة المستوى قصيرة المدى بواسطة الجزء الأمامي البصري، والتي يتم دمجها بعد ذلك للحصول على تمثيلات تمييزية لكلمات ذات فونيمات مشابهة. ثم، يتم استخدام شبكة ConvLSTM ثنائية الاتجاه مع انتباه زمني لتجميع المعلومات الزمانية-المكانية في سلسلة الإدخال الكاملة، مما يتوقع أن يكون قادرًا على التقاط الأنماط الخشنة لكل كلمة والتعامل مع مختلف الظروف المتعلقة بهوية المتحدث وظروف الإضاءة وما إلى ذلك. عن طريق الاستفادة الكاملة من المعلومات الموجودة على مستويات مختلفة ضمن إطار موحد، يكون النموذج قادرًا ليس فقط على تمييز الكلمات ذات النطق المشابه ولكن أيضًا يصبح مقاومًا للتغيرات في المظهر. قدمنا تقييمًا لطرقنا على محكمتين صعبتين لقراءة الشفاه على مستوى الكلمة وأظهرنا فعالية الطريقة المقترحة، والتي تؤكد أيضًا الادعاءات المذكورة أعلاه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
نمذجة متعددة الحبوب للمساحة والزمان لقراءة الشفاه | مستندات | HyperAI