HyperAIHyperAI
منذ 3 أشهر

Squeezeformer: نموذج فعّال من نوع Transformer للإعتراف التلقائي بالصوت

Sehoon Kim, Amir Gholami, Albert Shaw, Nicholas Lee, Karttikeya Mangalam, Jitendra Malik, Michael W. Mahoney, Kurt Keutzer
Squeezeformer: نموذج فعّال من نوع Transformer للإعتراف التلقائي بالصوت
الملخص

نموذج Conformer الذي تم اقتراحه حديثًا أصبح النموذج الأساسي الافتراضي لمجموعة متنوعة من المهام الصوتية التالية، وذلك بفضل هيكله الهجين القائم على الانتباه والتحويلات التلافيفية الذي يلتقط الخصائص المحلية والعالمية معًا. ومع ذلك، من خلال سلسلة من الدراسات المنظمة، نجد أن خيارات التصميم في معمارية Conformer ليست مثالية. وبعد إعادة تقييم خيارات التصميم على المستويين الكلي (macro-architecture) والصغير (micro-architecture) لنموذج Conformer، نقترح نموذج Squeezeformer الذي يتفوق باستمرار على أحدث نماذج التعرف على الكلام (ASR) في الحالة نفسها من خوارزميات التدريب. وبالتحديد، فيما يتعلق بالهيكل الكلي، يدمج Squeezeformer (i) هيكل Temporal U-Net الذي يقلل من التكلفة الحسابية لوحدات الانتباه متعددة الرؤوس عند التعامل مع التسلسلات الطويلة، و(ii) هيكلًا أبسط للكتل يتكون من وحدة انتباه متعددة الرؤوس أو وحدة تحويل تلافيفي تليها وحدة تغذية أمامية، بدلًا من الهيكل المُقترح في Conformer المعروف بـ Macaron. علاوة على ذلك، من حيث الهيكل الصغير، يُبسط Squeezeformer (i) الدوال التنشيطية في وحدة التحويل التلافيفي، (ii) يزيل العمليات الزائدة لتصحيح الطبقات (Layer Normalization)، و(iii) يدمج طبقة فعالة للتخفيض العمودي (depthwise down-sampling) لاستخلاص عينات فعالة من الإشارة المدخلة. حقق Squeezeformer نتائج متميزة تصل إلى 7.5% و6.5% و6.0% من معدل الخطأ الكلمي (WER) على مجموعة بيانات LibriSpeech test-other دون استخدام نماذج لغوية خارجية، وهي أفضل بـ 3.1% و1.4% و0.6% مقارنة بنموذج Conformer-CTC عند نفس عدد العمليات الحسابية (FLOPs). وتم إتاحة رمز المصدر الخاص بنا مفتوحًا للجمهور ومتاح عبر الإنترنت.

Squeezeformer: نموذج فعّال من نوع Transformer للإعتراف التلقائي بالصوت | الأوراق البحثية | HyperAI