HyperAIHyperAI

Command Palette

Search for a command to run...

إلى اعتراف صوتي من النهاية إلى النهاية تنافسي لتحويل حفل العشاء في CHiME-6

Andrei Andrusenko Aleksandr Laptev Ivan Medennikov

الملخص

بينما أثبتت أنظمة التعرف على الكلام (ASR) من الطرف إلى الطرف كفاءة تنافسية مقارنة بالنهج الهجين التقليدي، إلا أنها عرضة لانخفاض الدقة في البيئات الصاخبة وظروف الموارد المحدودة. في هذا البحث، نجادل بأن بعض النماذج المبنية على النهج من الطرف إلى الطرف تُظهر أداءً قريبًا من الأداء الأساسي الهجين، حتى في الحالات الصعبة. ولإثبات ذلك، نستخدم بيانات تحدي CHiME-6 كمثال على بيئات صعبة وظروف صوتية مزعجة تشبه التحدث اليومي. ونقوم بمقارنة تجريبية وتحليلية بين نماذج CTC-Attention ونماذج RNN-Transducer، بالإضافة إلى مقارنة بين معمارية RNN وTransformer. كما نقدم مقارنة بين الخصائص الصوتية وتقنيات تحسين الصوت. علاوةً على ذلك، نقيّم فعالية نماذج النماذج اللغوية القائمة على الشبكات العصبية لإعادة تقييم الافتراضات في ظل ظروف الموارد المحدودة. وقد حقق أفضل نموذج من الطرف إلى الطرف، المستند إلى معمارية RNN-Transducer مع تحسين خوارزمية البحث بالشريحة (beam search)، أداءً يقل عن الأداء الأساسي (baseline) لنظام LF-MMI TDNN-F في تحدي CHiME-6 بمقدار 3.8% فقط من خطأ الكلمة (WER) مطلقًا. وباستخدام تقنية تكبير بيانات التدريب القائمة على فصل المصدر الموجه (Guided Source Separation)، تفوق هذا النهج على النظام الهجين الأساسي بنسبة 2.7% من WER مطلقًا، كما تفوق على أفضل نموذج من الطرف إلى الطرف المعروف سابقًا بنسبة 25.7% من WER مطلقًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp