منذ 17 أيام

الاستماع إلى الكلام القائم على مُحَوِّل يدمج طبقة تقليل الوقت وتحسينًا دقيقًا باستخدام التعلم المستقل المُتَعَلِّم من الذات

Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh

الملخص

التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف، على عكس نماذج ASR التقليدية، لا يحتوي على وحدات لتعلم التمثيل الدلالي من مشغل الكلام. علاوةً على ذلك، فإن معدل الإطارات الأعلى في تمثيل الكلام يمنع النموذج من تعلم التمثيل الدلالي بشكل صحيح. ولهذا السبب، تُظهر النماذج التي تُبنى باستخدام معدل إطارات أقل في مشغل الكلام أداءً أفضل. بالنسبة لنماذج ASR القائمة على التحويل (Transformer)، فإن تقليل معدل الإطارات ليس مهمًا فقط لتحسين تعلم التمثيل الدلالي، بل أيضًا لتقليل التعقيد الحسابي، نظرًا لأن آلية الانتباه الذاتي (self-attention) تتميز بتعقيد من الدرجة O(n²) أثناء التدريب والاستنتاج. في هذه الورقة، نقترح نموذجًا لـ ASR القائم على التحويل يحتوي على طبقة تقليل الوقت (time reduction layer)، حيث نُدمج طبقة تقليل الوقت داخل طبقات مشغل التحويل (transformer encoder layers)، إلى جانب طرق التناقص التقليدية (sub-sampling) للسمات المدخلة، مما يؤدي إلى تقليل معدل الإطارات بشكل إضافي. ويساعد هذا في تقليل التكلفة الحسابية لعملية الانتباه الذاتي أثناء التدريب والاستنتاج، مع تحسين الأداء. علاوةً على ذلك، نُقدّم منهجية لضبط الدقة النهائية (fine-tuning) لنموذج ASR مُدرّب مسبقًا باستخدام تقنية تبادل المعرفة الذاتية (Self-Knowledge Distillation, S-KD)، والتي تُحسّن الأداء بشكل إضافي لنموذجنا. أظهرت التجارب على مجموعة بيانات LibriSpeech أن الطرق المقترحة تتفوق على جميع الأنظمة الأخرى القائمة على التحويل. وباستخدام دمج نموذج اللغة (LM)، نحقق نتائج جديدة في مستوى أفضل (state-of-the-art) لخطأ الكلمة (Word Error Rate, WER) بالنسبة لنماذج ASR القائمة على التحويل، مع استخدام 30 مليون معلمة فقط، دون الحاجة إلى أي بيانات خارجية.