Command Palette
Search for a command to run...
التعرف على الكلام بالشبكات العصبية الكاملة التوافقة
التعرف على الكلام بالشبكات العصبية الكاملة التوافقة
Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1
الملخص
الأنظمة الحالية الرائدة في مجال التعرف على الكلام تعتمد على الشبكات العصبية المتكررة للنمذجة الصوتية وللنمذجة اللغوية، وتستند إلى خطوط معالجة الميزات لاستخراج مصفوفات المرشح الميل أو المعاملات الطيفية. في هذا البحث، نقدم نهجًا بديلًا يعتمد تمامًا على الشبكات العصبية التلافيفية، مستفيدًا من التطورات الحديثة في النماذج الصوتية المستخرجة من الإشارة الصوتية الخام والنمذجة اللغوية. يتم تدريب هذا النهج التلافيزي بالكامل من البداية إلى النهاية لتوقع الحروف من الإشارة الصوتية الخام، مما يزيل خطوة استخراج الميزات تمامًا. يستخدم نموذج لغوي تلافيزي خارجي لفك رموز الكلمات. على مجموعة بيانات جورنال وول ستريت، يتطابق نموذجنا مع الأداء الحالي الرائد. وعلى مجموعة بيانات Librispeech، نبلغ عن أداء رائد بين النماذج التي يتم تدريبها من البداية إلى النهاية، بما في ذلك Deep Speech 2 الذي تم تدريبه باستخدام 12 ضعف البيانات الصوتية وأكثر بكثير من البيانات اللغوية.