إلى اعتراف صوتي من النهاية إلى النهاية تنافسي لتحويل حفل العشاء في CHiME-6

بينما أثبتت أنظمة التعرف على الكلام (ASR) من الطرف إلى الطرف كفاءة تنافسية مقارنة بالنهج الهجين التقليدي، إلا أنها عرضة لانخفاض الدقة في البيئات الصاخبة وظروف الموارد المحدودة. في هذا البحث، نجادل بأن بعض النماذج المبنية على النهج من الطرف إلى الطرف تُظهر أداءً قريبًا من الأداء الأساسي الهجين، حتى في الحالات الصعبة. ولإثبات ذلك، نستخدم بيانات تحدي CHiME-6 كمثال على بيئات صعبة وظروف صوتية مزعجة تشبه التحدث اليومي. ونقوم بمقارنة تجريبية وتحليلية بين نماذج CTC-Attention ونماذج RNN-Transducer، بالإضافة إلى مقارنة بين معمارية RNN وTransformer. كما نقدم مقارنة بين الخصائص الصوتية وتقنيات تحسين الصوت. علاوةً على ذلك، نقيّم فعالية نماذج النماذج اللغوية القائمة على الشبكات العصبية لإعادة تقييم الافتراضات في ظل ظروف الموارد المحدودة. وقد حقق أفضل نموذج من الطرف إلى الطرف، المستند إلى معمارية RNN-Transducer مع تحسين خوارزمية البحث بالشريحة (beam search)، أداءً يقل عن الأداء الأساسي (baseline) لنظام LF-MMI TDNN-F في تحدي CHiME-6 بمقدار 3.8% فقط من خطأ الكلمة (WER) مطلقًا. وباستخدام تقنية تكبير بيانات التدريب القائمة على فصل المصدر الموجه (Guided Source Separation)، تفوق هذا النهج على النظام الهجين الأساسي بنسبة 2.7% من WER مطلقًا، كما تفوق على أفضل نموذج من الطرف إلى الطرف المعروف سابقًا بنسبة 25.7% من WER مطلقًا.