HyperAIHyperAI

Command Palette

Search for a command to run...

التمييز الصوتي شبه المشرف باستخدام التسلسلات غير المترافقة من الكلام والنص

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký

الملخص

تتطلب نماذج التعرف التلقائي على الكلام (ASR) ذات التسلسل إلى تسلسل كميات كبيرة من البيانات للوصول إلى أداء عالٍ. ولذلك، شهدت الأشهر الأخيرة زيادة في الاهتمام بتدريب النماذج دون إشراف وبإشراف جزئي. يعتمد هذا البحث على النتائج الحديثة التي أظهرت تحسينات ملحوظة في التدريب بالإشراف الجزئي باستخدام تقنيات التناسق الدوري (cycle-consistency) وتقنيات متعلقة بها. تعمل هذه التقنيات على اشتقاق إجراءات تدريب وخسائر قادرة على الاستفادة من بيانات الكلام والنص غير المترابطة من خلال دمج نموذج التعرف التلقائي على الكلام (ASR) مع نماذج تحويل النص إلى كلام (TTS). بشكل خاص، يقترح هذا العمل خسارة جديدة بإشراف جزئي تجمع بين خسارة ASR\rightarrowTTS القابلة للمفاضلة من النهاية إلى النهاية وخسارة TTS\rightarrowASR. يمكن لهذه الطريقة الاستفادة من بيانات الكلام والنص غير المترابطة لتفوق التقنيات ذات الصلة التي تم اقتراحها مؤخرًا من حيث نسبة الخطأ الكلامي (%WER). نقدم نتائج شاملة تحلل تأثير كمية البيانات وأنماط الكلام والنص، ونظهر مكاسب ثابتة عبر مجموعتي بيانات WSJ و Librispeech. يتم توفير رمزنا في ESPnet لإعادة إنتاج التجارب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التمييز الصوتي شبه المشرف باستخدام التسلسلات غير المترافقة من الكلام والنص | مستندات | HyperAI