الاستماع إلى الكلام باستخدام الشبكات التلافيفية الزمنية

لقد جذبت قراءة الحركات الشفوية اهتمامًا كبيرًا في الأبحاث مؤخرًا بفضل التقدم في التعلم العميق. يعتمد النموذج الحاصل على أحدث التقنيات في تمييز الكلمات المنفصلة في البيئات الطبيعية (in-the-wild) على شبكة متعددة الطبقات (Residual Network) وطبقات وحدات التكرار المزدوجة ذات المفاتيح (Bidirectional Gated Recurrent Unit - BGRU). في هذا العمل، نتناول القيود الموجودة في هذا النموذج ونُقدّم تحسينات تُعزز أداؤه بشكل إضافي. أولاً، نستبدل طبقات BGRU بطبقات الشبكات التلافيفية الزمنية (Temporal Convolutional Networks - TCN). ثانيًا، نبسط بشكل كبير إجراءات التدريب، مما يسمح لنا بتدريب النموذج في مرحلة واحدة فقط. ثالثًا، نُظهر أن الطريقة الحالية للحالة الراهنة تُنتج نماذج لا تُظهر قدرة جيدة على التعميم عند تغير طول التسلسل، ونعالج هذه المشكلة من خلال اقتراح تقنية تكبير متغيرة الطول (variable-length augmentation). نقدم النتائج على أكبر المجموعات العامة المتاحة للبيانات الخاصة بتمييز الكلمات المنفصلة باللغة الإنجليزية والصينية (المندرين)، على التوالي: LRW وLRW1000. يُظهر النموذج المقترح تحسنًا مطلقًا بنسبة 1.2% و3.2% على كلتا المجموعتين، مما يُمثّل أداءً جديدًا للحالة الراهنة.