منذ 2 أشهر

تحسين تدريب نماذج الانتباه من النهاية إلى النهاية للاعتراف بالكلام

Albert Zeyer; Kazuki Irie; Ralf Schlüter; Hermann Ney

الملخص

النماذج القائمة على الانتباه (attention) للوحدات الفرعية للكلمات (subword units) تسمح بالتعرف على الكلام بشكل بسيط ومباشر مع قاموس مفتوح. في هذا البحث، نوضح أن مثل هذه النماذج يمكنها تحقيق نتائج تنافسية في مهمتي Switchboard 300 ساعة وLibriSpeech 1000 ساعة. بشكل خاص، نبلغ عن معدلات أخطاء الكلمات (Word Error Rates - WER) الأحدث التي بلغت 3.54% في مجموعة التقييم dev-clean و3.82% في مجموعة التقييم test-clean من LibriSpeech. نقدم مخططًا جديدًا للتدريب المسبق يبدأ بمعدل تخفيض زمني عالي ويتم خفضه أثناء التدريب، وهو أمر حاسم لكل من التقارب والأداء النهائي. وفي بعض التجارب، نستخدم أيضًا دالة خسارة CTC المساعدة لتعزيز التقارب. بالإضافة إلى ذلك، نقوم بتدريب نماذج اللغة ذات الذاكرة طويلة الأمد قصيرة المدى (Long Short-Term Memory - LSTM) على الوحدات الفرعية للكلمات. من خلال الاندماج السطحي، نبلغ عن تحسينات نسبية تصل إلى 27% في معدل أخطاء الكلمات (WER) فوق أساس الانتباه دون استخدام نموذج اللغة.