HyperAIHyperAI

Command Palette

Search for a command to run...

شبكة ت.Convolutionية رسمية-زمنية-مكانية متكيفة للقراءة من الشفاه

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

الملخص

الهدف من هذه الدراسة هو التعرف على الكلمات والعبارات والجمل التي يُنطقها وجه متحدث دون توفر الصوت. تركز الطرق الحديثة القائمة على التعلم العميق للقراءة الشفوية على استكشاف معلومات المظهر والتدفق البصري من الفيديوهات. ومع ذلك، فإن هذه الطرق لا تستغل بالكامل الخصائص المرتبطة بحركة الشفاه. إلى جانب معلومات المظهر والتدفق البصري، يُعتبر تشوه محيط الفم عادةً مصدرًا مهمًا للمعلومات المكملة للبيانات الأخرى. ومع ذلك، لم تُعطَ عملية نمذجة محيط الفم الديناميكي نفس الاهتمام الذي أُعطي لتمثيل المظهر والتدفق البصري. في هذه الدراسة، نقترح نموذجًا جديدًا يُعرف بـ "شبكة الت convolution الرسومية الزمنية-المكانية-المعنى التكيفية" (ASST-GCN) لتمثيل محيط الفم الديناميكي، بهدف تجاوز الطرق السابقة من خلال التعلم التلقائي للمعلومات المكانية والزمنية من الفيديوهات. ولدمج المعلومات المكملة الناتجة عن المظهر وشكل الفم، نقترح شبكة أمامية بصرية ذات مسارين. أظهرت النتائج التجريبية أن الطريقة المقترحة تتفوق بشكل كبير على أحدث الطرق في مجال قراءة الشفاه على عدة معايير كبيرة لقراءة الشفاه.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp