HyperAIHyperAI

Command Palette

Search for a command to run...

Conformer ذا حالة مع استدلال مبني على الذاكرة للإعتراف الصوتي التلقائي التدفقي

Vahid Noroozi Somshubra Majumdar Ankur Kumar Jagadeesh Balam Boris Ginsburg

الملخص

في هذا البحث، نقترح نموذجًا فعّالًا ودقيقًا للتعرف على الكلام في الزمن الحقيقي (streaming speech recognition) مستندًا إلى بنية FastConformer. وقد قمنا بتعديل بنية FastConformer لتناسب التطبيقات الزمنية الحقيقية من خلال: (1) تقييد كل من السياق المستقبلية (look-ahead) والماضية في المُشفر (encoder)، و(2) إدخال آلية تخزين التفعيل (activation caching) التي تسمح للمُشفر غير التكراري (non-autoregressive) بالعمل بشكل تكراري (autoregressive) أثناء عملية الاستنتاج (inference). تم تصميم النموذج المقترح بعناية لاستئصال الفجوة في الدقة بين مرحلة التدريب ومرحلة الاستنتاج، وهي مشكلة شائعة في العديد من النماذج الزمنية الحقيقية. علاوةً على ذلك، يعمل المُشفر المقترح مع تكوينات مختلفة للمُفكّك (decoder)، بما في ذلك مُفكّكات التصنيف الزمني الاتصالي (Connectionist Temporal Classification - CTC) ومُفكّكات RNN-Transducer (RNNT). كما قمنا بطرح بنية هجينة تجمع بين CTC وRNNT، تستخدم مُشفرًا مشتركًا مع مُفكّكَين: أحدهما CTC والآخر RNNT، بهدف تعزيز الدقة وتقليل الحمل الحسابي. وقد قمنا بتقييم النموذج المقترح على مجموعة بيانات LibriSpeech وعلى مجموعة بيانات كبيرة ومتعددة المجالات، وأظهرت النتائج أنه يحقق دقة أعلى مع زمن تأخير أقل ووقت استنتاج أقصر مقارنة بنموذج مرجعي تقليدي يعتمد على التخزين المؤقت (buffered streaming model). كما أظهرت النتائج أن تدريب نموذج باستخدام تأخيرات متعددة يمكن أن يحقق دقة أفضل من النماذج ذات التأخير الواحد، مع إمكانية دعم عدة تأخيرات باستخدام نموذج واحد. وعلاوةً على ذلك، أثبتت التجارب أن البنية الهجينة لا تسرّع فقط من تقارب مُفكّك CTC، بل تُحسّن أيضًا من دقة النماذج الزمنية الحقيقية مقارنة بالنماذج ذات المُفكّك الواحد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Conformer ذا حالة مع استدلال مبني على الذاكرة للإعتراف الصوتي التلقائي التدفقي | مستندات | HyperAI