HyperAIHyperAI

Command Palette

Search for a command to run...

الاستماع إلى الكلام باستخدام الشبكات التلافيفية الزمنية

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

الملخص

لقد جذبت قراءة الحركات الشفوية اهتمامًا كبيرًا في الأبحاث مؤخرًا بفضل التقدم في التعلم العميق. يعتمد النموذج الحاصل على أحدث التقنيات في تمييز الكلمات المنفصلة في البيئات الطبيعية (in-the-wild) على شبكة متعددة الطبقات (Residual Network) وطبقات وحدات التكرار المزدوجة ذات المفاتيح (Bidirectional Gated Recurrent Unit - BGRU). في هذا العمل، نتناول القيود الموجودة في هذا النموذج ونُقدّم تحسينات تُعزز أداؤه بشكل إضافي. أولاً، نستبدل طبقات BGRU بطبقات الشبكات التلافيفية الزمنية (Temporal Convolutional Networks - TCN). ثانيًا، نبسط بشكل كبير إجراءات التدريب، مما يسمح لنا بتدريب النموذج في مرحلة واحدة فقط. ثالثًا، نُظهر أن الطريقة الحالية للحالة الراهنة تُنتج نماذج لا تُظهر قدرة جيدة على التعميم عند تغير طول التسلسل، ونعالج هذه المشكلة من خلال اقتراح تقنية تكبير متغيرة الطول (variable-length augmentation). نقدم النتائج على أكبر المجموعات العامة المتاحة للبيانات الخاصة بتمييز الكلمات المنفصلة باللغة الإنجليزية والصينية (المندرين)، على التوالي: LRW وLRW1000. يُظهر النموذج المقترح تحسنًا مطلقًا بنسبة 1.2% و3.2% على كلتا المجموعتين، مما يُمثّل أداءً جديدًا للحالة الراهنة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستماع إلى الكلام باستخدام الشبكات التلافيفية الزمنية | مستندات | HyperAI