HyperAIHyperAI
منذ 17 أيام

إلى اعتراف صوتي من النهاية إلى النهاية تنافسي لتحويل حفل العشاء في CHiME-6

Andrei Andrusenko, Aleksandr Laptev, Ivan Medennikov
إلى اعتراف صوتي من النهاية إلى النهاية تنافسي لتحويل حفل العشاء في CHiME-6
الملخص

بينما أثبتت أنظمة التعرف على الكلام (ASR) من الطرف إلى الطرف كفاءة تنافسية مقارنة بالنهج الهجين التقليدي، إلا أنها عرضة لانخفاض الدقة في البيئات الصاخبة وظروف الموارد المحدودة. في هذا البحث، نجادل بأن بعض النماذج المبنية على النهج من الطرف إلى الطرف تُظهر أداءً قريبًا من الأداء الأساسي الهجين، حتى في الحالات الصعبة. ولإثبات ذلك، نستخدم بيانات تحدي CHiME-6 كمثال على بيئات صعبة وظروف صوتية مزعجة تشبه التحدث اليومي. ونقوم بمقارنة تجريبية وتحليلية بين نماذج CTC-Attention ونماذج RNN-Transducer، بالإضافة إلى مقارنة بين معمارية RNN وTransformer. كما نقدم مقارنة بين الخصائص الصوتية وتقنيات تحسين الصوت. علاوةً على ذلك، نقيّم فعالية نماذج النماذج اللغوية القائمة على الشبكات العصبية لإعادة تقييم الافتراضات في ظل ظروف الموارد المحدودة. وقد حقق أفضل نموذج من الطرف إلى الطرف، المستند إلى معمارية RNN-Transducer مع تحسين خوارزمية البحث بالشريحة (beam search)، أداءً يقل عن الأداء الأساسي (baseline) لنظام LF-MMI TDNN-F في تحدي CHiME-6 بمقدار 3.8% فقط من خطأ الكلمة (WER) مطلقًا. وباستخدام تقنية تكبير بيانات التدريب القائمة على فصل المصدر الموجه (Guided Source Separation)، تفوق هذا النهج على النظام الهجين الأساسي بنسبة 2.7% من WER مطلقًا، كما تفوق على أفضل نموذج من الطرف إلى الطرف المعروف سابقًا بنسبة 25.7% من WER مطلقًا.

إلى اعتراف صوتي من النهاية إلى النهاية تنافسي لتحويل حفل العشاء في CHiME-6 | أحدث الأوراق البحثية | HyperAI