HyperAIHyperAI

Command Palette

Search for a command to run...

بناء أحدث أنظمة التعرف على الكلام عن بعد باستخدام تحدي CHiME-4 مع إعداد أساس التحسين الصوتي

Szu-Jui Chen Aswin Shanmugam Subramanian Hainan Xu Shinji Watanabe

الملخص

يصف هذا البحث نظامًا أساسيًا جديدًا للاعتراف التلقائي بالكلام (ASR) في تحدي CHiME-4 بهدف تعزيز تطوير الاعتراف التلقائي بالكلام في بيئات الضوضاء ضمن مجتمعات معالجة الكلام من خلال توفير 1) نظام حديث بسيط يمكن مقارنته بالنظم المعقدة الرائدة في التحدي، 2) وصفة متاحة للجمهور قابلة للتكرار عبر المستودع الرئيسي في أداة Kaldi للاعتراف بالكلام. يعتمد النظام المقترح على تقنية تشكيل الحزم باستخدام القيم الذاتية المعممة مع تقدير القناع باستخدام ذاكرة طويلة قصيرة المدى ثنائية الاتجاه (LSTM). كما نقترح استخدام شبكة عصبية ذات تأخير زمني (TDNN) استنادًا إلى الإصدار الخالي من الشبكة للحد الأقصى لمعلومات المتبادلة (LF-MMI)، والتي يتم تدريبها باستخدام جميع الميكروفونات الستة المحسنة بالإضافة إلى البيانات المعززة بعد تشكيل الحزم. وأخيرًا، نستخدم نموذج اللغة LSTM لإعادة تقييم الشبكة والخيارات النهائية. حقق النظام النهائي نسبة خطأ الكلمات (WER) بنسبة 2.74٪ للمجموعة الاختبارية الحقيقية في المسار ذو القنوات الستة، مما يضعه في المركز الثاني في التحدي. بالإضافة إلى ذلك، تتضمن الوصفة الأساسية المقترحة أربع مقاييس مختلفة لتحسين الكلام، وهي: مقاييس الفهم الذكي قصير الأمد (STOI)، ومقاييس الفهم الذكي قصير الأمد الموسعة (eSTOI)، وتقييم الجودة العصبي للكلام (PESQ)، ونسبة تشوه الكلام (SDR) للمجموعة الاختبارية المحاكاة. وبالتالي، توفر الوصفة أيضًا منصة تجريبية لدراسات تحسين الكلام باستخدام هذه المقاييس الأداء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
بناء أحدث أنظمة التعرف على الكلام عن بعد باستخدام تحدي CHiME-4 مع إعداد أساس التحسين الصوتي | مستندات | HyperAI