HyperAIHyperAI
منذ 2 أشهر

التعرف على الكلام بالشبكات العصبية الكاملة التوافقة

Neil Zeghidour; Qiantong Xu; Vitaliy Liptchinsky; Nicolas Usunier; Gabriel Synnaeve; Ronan Collobert
التعرف على الكلام بالشبكات العصبية الكاملة التوافقة
الملخص

الأنظمة الحالية الرائدة في مجال التعرف على الكلام تعتمد على الشبكات العصبية المتكررة للنمذجة الصوتية وللنمذجة اللغوية، وتستند إلى خطوط معالجة الميزات لاستخراج مصفوفات المرشح الميل أو المعاملات الطيفية. في هذا البحث، نقدم نهجًا بديلًا يعتمد تمامًا على الشبكات العصبية التلافيفية، مستفيدًا من التطورات الحديثة في النماذج الصوتية المستخرجة من الإشارة الصوتية الخام والنمذجة اللغوية. يتم تدريب هذا النهج التلافيزي بالكامل من البداية إلى النهاية لتوقع الحروف من الإشارة الصوتية الخام، مما يزيل خطوة استخراج الميزات تمامًا. يستخدم نموذج لغوي تلافيزي خارجي لفك رموز الكلمات. على مجموعة بيانات جورنال وول ستريت، يتطابق نموذجنا مع الأداء الحالي الرائد. وعلى مجموعة بيانات Librispeech، نبلغ عن أداء رائد بين النماذج التي يتم تدريبها من البداية إلى النهاية، بما في ذلك Deep Speech 2 الذي تم تدريبه باستخدام 12 ضعف البيانات الصوتية وأكثر بكثير من البيانات اللغوية.