HyperAIHyperAI
منذ 2 أشهر

بناء أحدث أنظمة التعرف على الكلام عن بعد باستخدام تحدي CHiME-4 مع إعداد أساس التحسين الصوتي

Szu-Jui Chen; Aswin Shanmugam Subramanian; Hainan Xu; Shinji Watanabe
بناء أحدث أنظمة التعرف على الكلام عن بعد باستخدام تحدي CHiME-4 مع إعداد أساس التحسين الصوتي
الملخص

يصف هذا البحث نظامًا أساسيًا جديدًا للاعتراف التلقائي بالكلام (ASR) في تحدي CHiME-4 بهدف تعزيز تطوير الاعتراف التلقائي بالكلام في بيئات الضوضاء ضمن مجتمعات معالجة الكلام من خلال توفير 1) نظام حديث بسيط يمكن مقارنته بالنظم المعقدة الرائدة في التحدي، 2) وصفة متاحة للجمهور قابلة للتكرار عبر المستودع الرئيسي في أداة Kaldi للاعتراف بالكلام. يعتمد النظام المقترح على تقنية تشكيل الحزم باستخدام القيم الذاتية المعممة مع تقدير القناع باستخدام ذاكرة طويلة قصيرة المدى ثنائية الاتجاه (LSTM). كما نقترح استخدام شبكة عصبية ذات تأخير زمني (TDNN) استنادًا إلى الإصدار الخالي من الشبكة للحد الأقصى لمعلومات المتبادلة (LF-MMI)، والتي يتم تدريبها باستخدام جميع الميكروفونات الستة المحسنة بالإضافة إلى البيانات المعززة بعد تشكيل الحزم. وأخيرًا، نستخدم نموذج اللغة LSTM لإعادة تقييم الشبكة والخيارات النهائية. حقق النظام النهائي نسبة خطأ الكلمات (WER) بنسبة 2.74٪ للمجموعة الاختبارية الحقيقية في المسار ذو القنوات الستة، مما يضعه في المركز الثاني في التحدي. بالإضافة إلى ذلك، تتضمن الوصفة الأساسية المقترحة أربع مقاييس مختلفة لتحسين الكلام، وهي: مقاييس الفهم الذكي قصير الأمد (STOI)، ومقاييس الفهم الذكي قصير الأمد الموسعة (eSTOI)، وتقييم الجودة العصبي للكلام (PESQ)، ونسبة تشوه الكلام (SDR) للمجموعة الاختبارية المحاكاة. وبالتالي، توفر الوصفة أيضًا منصة تجريبية لدراسات تحسين الكلام باستخدام هذه المقاييس الأداء.

بناء أحدث أنظمة التعرف على الكلام عن بعد باستخدام تحدي CHiME-4 مع إعداد أساس التحسين الصوتي | أحدث الأوراق البحثية | HyperAI