HyperAIHyperAI
منذ 16 أيام

شبكة ت.Convolutionية رسمية-زمنية-مكانية متكيفة للقراءة من الشفاه

{Li Liu, Matti Pietikäinen, Huiying Xu, Xinzhong Zhu, Changchong Sheng}
الملخص

الهدف من هذه الدراسة هو التعرف على الكلمات والعبارات والجمل التي يُنطقها وجه متحدث دون توفر الصوت. تركز الطرق الحديثة القائمة على التعلم العميق للقراءة الشفوية على استكشاف معلومات المظهر والتدفق البصري من الفيديوهات. ومع ذلك، فإن هذه الطرق لا تستغل بالكامل الخصائص المرتبطة بحركة الشفاه. إلى جانب معلومات المظهر والتدفق البصري، يُعتبر تشوه محيط الفم عادةً مصدرًا مهمًا للمعلومات المكملة للبيانات الأخرى. ومع ذلك، لم تُعطَ عملية نمذجة محيط الفم الديناميكي نفس الاهتمام الذي أُعطي لتمثيل المظهر والتدفق البصري. في هذه الدراسة، نقترح نموذجًا جديدًا يُعرف بـ "شبكة الت convolution الرسومية الزمنية-المكانية-المعنى التكيفية" (ASST-GCN) لتمثيل محيط الفم الديناميكي، بهدف تجاوز الطرق السابقة من خلال التعلم التلقائي للمعلومات المكانية والزمنية من الفيديوهات. ولدمج المعلومات المكملة الناتجة عن المظهر وشكل الفم، نقترح شبكة أمامية بصرية ذات مسارين. أظهرت النتائج التجريبية أن الطريقة المقترحة تتفوق بشكل كبير على أحدث الطرق في مجال قراءة الشفاه على عدة معايير كبيرة لقراءة الشفاه.

شبكة ت.Convolutionية رسمية-زمنية-مكانية متكيفة للقراءة من الشفاه | أحدث الأوراق البحثية | HyperAI