HyperAIHyperAI
منذ 17 أيام

ما وراء المحوّل الشامل: إعادة استخدام الكتل مع المُعدّل في المحوّل للتعرف التلقائي على الكلام

Haoyu Tang, Zhaoyi Liu, Chang Zeng, Xinfeng Li
ما وراء المحوّل الشامل: إعادة استخدام الكتل مع المُعدّل في المحوّل للتعرف التلقائي على الكلام
الملخص

أحرزت النماذج القائمة على المُحَوِّل (Transformer-based models) تقدماً كبيراً مؤخراً في تطبيق التعرف التلقائي على الكلام (ASR) من النهاية إلى النهاية (E2E). ومن الممكن نشر نظام ASR من النهاية إلى النهاية على الأجهزة الذكية بفضل النماذج القائمة على المُحَوِّل. ومع ذلك، تظل هذه النماذج تعاني من عيب يتلخص في الحاجة إلى عدد كبير من معاملات النموذج. وللتغلب على هذا العيب في النماذج المُحَوِّلة الشاملة عند تطبيقها على الأجهزة الحافة (edge devices)، نقترح حلّاً يمكنه إعادة استخدام الكتل (blocks) في نماذج المُحَوِّل في سياق أنظمة ASR ذات الحجم الصغير، بحيث تُلبّي هذه الطريقة الهدف المتمثل في التكيف مع القيود الموارد دون التضحية بدقة التعرف. وبشكل خاص، قمنا بتصميم استراتيجية جديدة لإعادة استخدام الكتل في نماذج المُحَوِّل للصوت (BRST) لتعزيز كفاءة استخدام المعاملات، واقترحنا وحدة مُعدّلة (ADM) قادرة على إنتاج نموذج مدمج وقابل للتكيف، باستخدام عدد قليل جداً من المعاملات القابلة للتدريب المصاحبة لكل كتلة يتم إعادة استخدامها. أجرينا تجربة باستخدام الطريقة المقترحة على مجموعة بيانات AISHELL-1 العامة، وأظهرت النتائج أن النهج المقترح حقق معدل خطأ حرف (CER) قدره 9.3%/6.63% باستخدام 7.6 مليون / 8.3 مليون معامل، دون وبدون وحدة ADM على التوالي. بالإضافة إلى ذلك، أجرينا تحليلًا أعمق لبيان تأثير وحدة ADM في الطريقة العامة لإعادة استخدام الكتل.