HyperAIHyperAI
منذ 2 أشهر

التمييز الصوتي شبه المشرف باستخدام التسلسلات غير المترافقة من الكلام والنص

Murali Karthick Baskar; Shinji Watanabe; Ramon Astudillo; Takaaki Hori; Lukáš Burget; Jan Černocký
التمييز الصوتي شبه المشرف باستخدام التسلسلات غير المترافقة من الكلام والنص
الملخص

تتطلب نماذج التعرف التلقائي على الكلام (ASR) ذات التسلسل إلى تسلسل كميات كبيرة من البيانات للوصول إلى أداء عالٍ. ولذلك، شهدت الأشهر الأخيرة زيادة في الاهتمام بتدريب النماذج دون إشراف وبإشراف جزئي. يعتمد هذا البحث على النتائج الحديثة التي أظهرت تحسينات ملحوظة في التدريب بالإشراف الجزئي باستخدام تقنيات التناسق الدوري (cycle-consistency) وتقنيات متعلقة بها. تعمل هذه التقنيات على اشتقاق إجراءات تدريب وخسائر قادرة على الاستفادة من بيانات الكلام والنص غير المترابطة من خلال دمج نموذج التعرف التلقائي على الكلام (ASR) مع نماذج تحويل النص إلى كلام (TTS). بشكل خاص، يقترح هذا العمل خسارة جديدة بإشراف جزئي تجمع بين خسارة ASR$\rightarrow$TTS القابلة للمفاضلة من النهاية إلى النهاية وخسارة TTS$\rightarrow$ASR. يمكن لهذه الطريقة الاستفادة من بيانات الكلام والنص غير المترابطة لتفوق التقنيات ذات الصلة التي تم اقتراحها مؤخرًا من حيث نسبة الخطأ الكلامي (\%WER). نقدم نتائج شاملة تحلل تأثير كمية البيانات وأنماط الكلام والنص، ونظهر مكاسب ثابتة عبر مجموعتي بيانات WSJ و Librispeech. يتم توفير رمزنا في ESPnet لإعادة إنتاج التجارب.

التمييز الصوتي شبه المشرف باستخدام التسلسلات غير المترافقة من الكلام والنص | أحدث الأوراق البحثية | HyperAI