HyperAIHyperAI

Command Palette

Search for a command to run...

إلى قراءة الشفاه العملية باستخدام نماذج مُستخلَصة وفعّالة

Pingchuan Ma Brais Martinez Stavros Petridis Maja Pantic

الملخص

لقد شهدت تقنية قراءة الحركات الشفوية تقدماً كبيراً بفضل ازدهار الشبكات العصبية. وركزت الدراسات الحديثة على جوانب مثل تحسين الأداء من خلال إيجاد البنية المثلى أو تعزيز القدرة على التعميم. ومع ذلك، لا تزال هناك فجوة كبيرة بين الطرق الحالية ومتطلبات تنفيذ قراءة الحركات الشفوية بشكل فعّال في السياقات العملية. في هذا العمل، نقترح سلسلة من الابتكارات التي تُقلل بشكل كبير من هذه الفجوة: أولاً، نرفع مستوى الأداء الراهن بشكل كبير على مجموعتي LRW وLRW-1000 إلى 88.5% و46.6% على التوالي باستخدام تقنية التعلم التجميعي الذاتي (self-distillation). ثانيًا، نقترح مجموعة من التغييرات المعمارية، بما في ذلك رأس جديد يُعرف بشبكة الت.Convolution الزمنية المفردة العميقة (DS-TCN)، التي تخفض التكلفة الحسابية إلى جزء ضئيل من النموذج الأصلي (الذي كان بالفعل فعالاً من حيث الحساب). ثالثًا، نُظهر أن تقنية التعلم التجميعي (knowledge distillation) أداة فعّالة للغاية في استعادة الأداء للنماذج الخفيفة. هذا يؤدي إلى مجموعة من النماذج التي تقدم توازناً مختلفاً بين الدقة والكفاءة. ومع ذلك، فإن أكثر النماذج الخفيفة واعدًا تُقاس بأداء النموذج الراهن الأفضل من حيث الدقة، مع تحقيق خفض بنسبة 8.2 مرة في التكلفة الحسابية وبنسبة 3.9 مرة في عدد المعلمات، وهو ما نأمل أن يُمكّن من تنفيذ نماذج قراءة الحركات الشفوية في التطبيقات العملية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إلى قراءة الشفاه العملية باستخدام نماذج مُستخلَصة وفعّالة | مستندات | HyperAI