HyperAIHyperAI

Command Palette

Search for a command to run...

التعرف على الكلام بالشبكات العصبية الكاملة التوافقة

Neil Zeghidour extsuperscript1,2,* Qiantong Xu extsuperscript1,* Vitaliy Liptchinsky extsuperscript1 Nicolas Usunier extsuperscript1 Gabriel Synnaeve extsuperscript1 Ronan Collobert extsuperscript1

الملخص

الأنظمة الحالية الرائدة في مجال التعرف على الكلام تعتمد على الشبكات العصبية المتكررة للنمذجة الصوتية وللنمذجة اللغوية، وتستند إلى خطوط معالجة الميزات لاستخراج مصفوفات المرشح الميل أو المعاملات الطيفية. في هذا البحث، نقدم نهجًا بديلًا يعتمد تمامًا على الشبكات العصبية التلافيفية، مستفيدًا من التطورات الحديثة في النماذج الصوتية المستخرجة من الإشارة الصوتية الخام والنمذجة اللغوية. يتم تدريب هذا النهج التلافيزي بالكامل من البداية إلى النهاية لتوقع الحروف من الإشارة الصوتية الخام، مما يزيل خطوة استخراج الميزات تمامًا. يستخدم نموذج لغوي تلافيزي خارجي لفك رموز الكلمات. على مجموعة بيانات جورنال وول ستريت، يتطابق نموذجنا مع الأداء الحالي الرائد. وعلى مجموعة بيانات Librispeech، نبلغ عن أداء رائد بين النماذج التي يتم تدريبها من البداية إلى النهاية، بما في ذلك Deep Speech 2 الذي تم تدريبه باستخدام 12 ضعف البيانات الصوتية وأكثر بكثير من البيانات اللغوية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعرف على الكلام بالشبكات العصبية الكاملة التوافقة | مستندات | HyperAI