HyperAIHyperAI

Command Palette

Search for a command to run...

الاستماع إلى الكلام القائم على مُحَوِّل يدمج طبقة تقليل الوقت وتحسينًا دقيقًا باستخدام التعلم المستقل المُتَعَلِّم من الذات

Md Akmal Haidar Chao Xing Mehdi Rezagholizadeh

الملخص

التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف، على عكس نماذج ASR التقليدية، لا يحتوي على وحدات لتعلم التمثيل الدلالي من مشغل الكلام. علاوةً على ذلك، فإن معدل الإطارات الأعلى في تمثيل الكلام يمنع النموذج من تعلم التمثيل الدلالي بشكل صحيح. ولهذا السبب، تُظهر النماذج التي تُبنى باستخدام معدل إطارات أقل في مشغل الكلام أداءً أفضل. بالنسبة لنماذج ASR القائمة على التحويل (Transformer)، فإن تقليل معدل الإطارات ليس مهمًا فقط لتحسين تعلم التمثيل الدلالي، بل أيضًا لتقليل التعقيد الحسابي، نظرًا لأن آلية الانتباه الذاتي (self-attention) تتميز بتعقيد من الدرجة O(n²) أثناء التدريب والاستنتاج. في هذه الورقة، نقترح نموذجًا لـ ASR القائم على التحويل يحتوي على طبقة تقليل الوقت (time reduction layer)، حيث نُدمج طبقة تقليل الوقت داخل طبقات مشغل التحويل (transformer encoder layers)، إلى جانب طرق التناقص التقليدية (sub-sampling) للسمات المدخلة، مما يؤدي إلى تقليل معدل الإطارات بشكل إضافي. ويساعد هذا في تقليل التكلفة الحسابية لعملية الانتباه الذاتي أثناء التدريب والاستنتاج، مع تحسين الأداء. علاوةً على ذلك، نُقدّم منهجية لضبط الدقة النهائية (fine-tuning) لنموذج ASR مُدرّب مسبقًا باستخدام تقنية تبادل المعرفة الذاتية (Self-Knowledge Distillation, S-KD)، والتي تُحسّن الأداء بشكل إضافي لنموذجنا. أظهرت التجارب على مجموعة بيانات LibriSpeech أن الطرق المقترحة تتفوق على جميع الأنظمة الأخرى القائمة على التحويل. وباستخدام دمج نموذج اللغة (LM)، نحقق نتائج جديدة في مستوى أفضل (state-of-the-art) لخطأ الكلمة (Word Error Rate, WER) بالنسبة لنماذج ASR القائمة على التحويل، مع استخدام 30 مليون معلمة فقط، دون الحاجة إلى أي بيانات خارجية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستماع إلى الكلام القائم على مُحَوِّل يدمج طبقة تقليل الوقت وتحسينًا دقيقًا باستخدام التعلم المستقل المُتَعَلِّم من الذات | مستندات | HyperAI