شبكات عصبية متعددة اللغات ذات طبقات عميقة جداً للاعتراف التلقائي بالكلام على مستوى الكلمات

الشبكات العصبية التلافيفية (CNNs) هي مكون قياسي في العديد من أنظمة التعرف على الكلام المستمر ذات المفردات الكبيرة (LVCSR) الحالية. ومع ذلك، لم تواكب الشبكات العصبية التلافيفية في مجال LVCSR التطورات الحديثة في المجالات الأخرى حيث توفر الشبكات العصبية الأعمق أداءً أفضل. في هذا البحث، نقترح عدة تحسينات هندسية في الشبكات العصبية التلافيفية لـ LVCSR. أولاً، نقدم بنية شبكة تلافيفية عميقة جداً تتضمن ما يصل إلى 14 طبقة وزن. هناك عدة طبقات تلافيفية قبل كل طبقة تجميع، مع نوى صغيرة بحجم 3x3، مستوحاة من بنية VGG Imagenet 2014. ثانياً، نقدم شبكات عصبية تلافيفية متعددة اللغات مع طبقات متعددة غير مرتبطة. وأخيراً، نقدم خصائص إدخال متعددة المقاييس بهدف استغلال المزيد من السياق بمكلفة حسابية ضئيلة.لقد قمنا بتقييم هذه التحسينات أولاً على مهمة Babel للتعرف على الكلام بموارد محدودة، مما حقق تحسيناً مطلقاً بنسبة 5.77% في معدل الخطأ الكلماتي (WER) مقارنة بالنموذج الأساسي PLP DNN من خلال تدريب شبكتنا العصبية التلافيفية على بيانات مشتركة لست لغات مختلفة. ثم قمنا بتقييم الشبكات العصبية التلافيفية العميقة جداً على معيار Hub5'00 ( باستخدام 262 ساعة من بيانات التدريب SWB-1 ) ، حيث حققت نسبة خطأ كلمات قدرها 11.8% بعد التدريب باستخدام دالة الخسارة التقاطعية (cross-entropy)، وهو ما يمثل تحسيناً بنسبة 1.4% في معدل الخطأ الكلماتي (10.6% نسبياً) مقارنة بأفضل نتيجة تم نشرها حتى الآن للشبكات العصبية التلافيفية.