التعرف على الكلام المستند إلى الحروف باستخدام شبكات الـ ConvNets المُحكَمة

في الأدبيات الحديثة، غالباً ما تشير أنظمة الكلام "من البداية إلى النهاية" (end-to-end) إلى نماذج صوتية مبنية على الحروف يتم تدريبها بطريقة متتابعة، إما من خلال نموذج متكرر أو من خلال نهج تعلم الإخراج المهيكل (مثل CTC). بخلاف النماذج التقليدية القائمة على الهوات (أو السينونات)، فإن هذه النماذج "من البداية إلى النهاية" تخفف الحاجة إلى نمذجة نطق الكلمات، ولا تتطلب خطوة "المحاذاة القسرية" (forced alignment) أثناء التدريب. ومع ذلك، تظل النماذج القائمة على الهوات هي الأكثر تقدماً في الاختبارات الكلاسيكية.في هذا البحث، نقترح نظاماً لتمييز الكلام يعتمد على الحروف، مستفيداً من نموذج الشبكة العصبية التلافيفي (ConvNet). من أهم عناصر ConvNet الوحدات الخطية المغلقة (Gated Linear Units) والانقطاع العالي (high dropout). يتم تدريب ConvNet على رسم خرائط بين سلاسل الصوت وترجماتها الحرفية المقابلة، إما باستخدام نهج CTC التقليدي أو عبر طريقة حديثة تُعرف باسم ASG. عند ربطه بمفكك بسيط أثناء الاستدلال، يحقق نظامنا أداءً مماثلاً لأفضل الأنظمة الحالية القائمة على الحروف في WSJ (وفقاً لمعدل خطأ الكلمات)، ويظهر أداءً قريباً من الأفضل في LibriSpeech.