HyperAIHyperAI
منذ 10 أيام

إلى قراءة الشفاه العملية باستخدام نماذج مُستخلَصة وفعّالة

Pingchuan Ma, Brais Martinez, Stavros Petridis, Maja Pantic
إلى قراءة الشفاه العملية باستخدام نماذج مُستخلَصة وفعّالة
الملخص

لقد شهدت تقنية قراءة الحركات الشفوية تقدماً كبيراً بفضل ازدهار الشبكات العصبية. وركزت الدراسات الحديثة على جوانب مثل تحسين الأداء من خلال إيجاد البنية المثلى أو تعزيز القدرة على التعميم. ومع ذلك، لا تزال هناك فجوة كبيرة بين الطرق الحالية ومتطلبات تنفيذ قراءة الحركات الشفوية بشكل فعّال في السياقات العملية. في هذا العمل، نقترح سلسلة من الابتكارات التي تُقلل بشكل كبير من هذه الفجوة: أولاً، نرفع مستوى الأداء الراهن بشكل كبير على مجموعتي LRW وLRW-1000 إلى 88.5% و46.6% على التوالي باستخدام تقنية التعلم التجميعي الذاتي (self-distillation). ثانيًا، نقترح مجموعة من التغييرات المعمارية، بما في ذلك رأس جديد يُعرف بشبكة الت.Convolution الزمنية المفردة العميقة (DS-TCN)، التي تخفض التكلفة الحسابية إلى جزء ضئيل من النموذج الأصلي (الذي كان بالفعل فعالاً من حيث الحساب). ثالثًا، نُظهر أن تقنية التعلم التجميعي (knowledge distillation) أداة فعّالة للغاية في استعادة الأداء للنماذج الخفيفة. هذا يؤدي إلى مجموعة من النماذج التي تقدم توازناً مختلفاً بين الدقة والكفاءة. ومع ذلك، فإن أكثر النماذج الخفيفة واعدًا تُقاس بأداء النموذج الراهن الأفضل من حيث الدقة، مع تحقيق خفض بنسبة 8.2 مرة في التكلفة الحسابية وبنسبة 3.9 مرة في عدد المعلمات، وهو ما نأمل أن يُمكّن من تنفيذ نماذج قراءة الحركات الشفوية في التطبيقات العملية.

إلى قراءة الشفاه العملية باستخدام نماذج مُستخلَصة وفعّالة | أحدث الأوراق البحثية | HyperAI